数据挖掘
ge_nius
我不知道些什么啊
展开
-
二分K-means的python实现
前两天无意间看到”zouxy09“大牛的机器学习算法与Python实践之(六)二分k均值聚类讲解,我感觉很受启发啦,但是又看到下面的评论里说出了一些不足,然后就抱着试一试的心态去做了一下,所以数据还是用的”zouxy09“的,链接在下面贴出来了。下面放代码啦~#coding:utf-8#二分K-means算法import numpy as npimport randomimport m原创 2016-12-25 10:30:05 · 1275 阅读 · 4 评论 -
multi-class logestic regression的python实现
logestic 多分类问题原理:每一维上都进行回归,每一维上进行gradient descent不多说了贴代码:# -*- coding: utf-8 -*-"""Created on Sun Sep 10 20:47:58 2017@author: wjwlogestic regression 来分类就是通过已有data来估计数据的分布模型,然后将test数据原创 2017-09-15 11:50:15 · 708 阅读 · 0 评论 -
keras深度学习入门
目标:完成对Iris数据集分类Iris是4维数据,所以第一层的neuron的数目时4;定义两个hidden-layer,每层有10个neuron;因为要对Iris数据分成3类,所以最后一层的neuron数目为3,且activation函数为softmax,将输出结果normalized到0-1之间。重要函数:keras.utils.to_categorical(),将数据转换成one-原创 2017-09-16 19:21:32 · 297 阅读 · 0 评论 -
基于DNN的semi-supervised learning
半监督学习:就是通过部分有label的数据,学习得到其余没有label数据的label。本文用的方法是 low-density separation (低密度的边界分类)中 self-training 方法;low-density separation 是按照“非黑即白”的观念进行分类。在对已有label数据建立模型时,本文采用的是DNN。整体基本步骤如下:repeat:1)将已有la原创 2017-09-25 16:27:11 · 435 阅读 · 0 评论 -
Principal component analysis(PCA)主成分分析
PCA是将原始数据X通过数学方法降维,得到产生该形式数据的内在原因。主要步骤为:1)求原始数据X的协方差矩阵S2)求S的最大特征值对应的K个特征向量并构成权重矩阵W3)将W与X内积得到降维数据Z代码如下:# -*- coding: utf-8 -*-"""Created on Sat Oct 7 20:21:05 2017@author: wjw"""impor原创 2017-10-08 19:07:57 · 456 阅读 · 0 评论 -
连续数值属性的CART decision tree
划分数据集:Iris;数据形如: a b c d class0 5.1 3.5 1.4 0.2 Iris-setosa1 4.9 3.0 1.4 0.2 Iris-setosa2 4.7 3.2 1.3 0.2 Iris-setosa3 4.6 3.1 1原创 2017-09-22 15:36:57 · 829 阅读 · 0 评论 -
gradient descent 的python实现
从模拟数据集到曲线拟合# -*- coding: utf-8 -*-"""Created on Tue Sep 5 21:21:58 2017@author: wjw模拟产生数据集,然后再进行拟合"""def nomalization(X):#不归一化时梯度下降时数值太大,报错 maxX = max(X) minX = min(X) normaliz...原创 2017-09-07 20:57:12 · 3742 阅读 · 0 评论 -
RMSE、MAPE、准确率、召回率、F1、ROC、AUC数据挖掘中的性能指标总结
RMSE(root mean square error)均方根误差单纯统计误差的值。 MAPE(mean absolute percentage error) 平均百分比误差存在一个和原始数据相比较的过程。 准确率(precision)P:P=TP/(TP+FP)TP(true positive) FP(false positive)P是代表预测为真...原创 2018-03-06 16:43:07 · 28786 阅读 · 5 评论