- 博客(19)
- 资源 (24)
- 收藏
- 关注
原创 分类器性能
分类器性能混淆矩阵1.基本概念 混淆矩阵用于把样本实际值(true class)和模型预测值(predicted class)进行联列表分析。如果实际样本true class 取-1,则为反例(negative),取+1则为正例(positive).如果模型预测错误,则为false,预测正确,则为真(true).最后混淆矩阵如表下所示:表中各个项的含义如下所示:
2016-05-11 22:12:11 938
原创 回归分析算法
回归分析1.回归分析基本原理所谓回归分析法,就是在掌握大量观察数据基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(简称为回归方程式)。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系,这种因变量与自变量的不确定性的关系(相关性关系)。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。2.为什么使用回归分析?如上
2016-05-07 13:39:20 35627
原创 数据挖掘--离群点检测
离群点检测R实现##设置工作空间#先用setwd设置工作空间,如D盘,并将相关数据拷贝到该目录下setwd("("D:/discrete")#读入数据Data=read.csv("D:/discrete/data/",header=T)Data=scale(Data)set.seed(12)km=kmeans(Data,center=3)print(km)k
2016-05-03 00:03:01 1400
原创 数据挖掘-数据预处理模块
数据预处理 在数据挖掘中,海量的原始数据中存在着大量的不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处理。数据预处理的主要内容包括数据清洗,数据集成,数据规约,数据变换等。1. 数据清洗1.1 缺失值
2016-05-02 00:28:20 9787
原创 分类与预测
分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。1. 实现过程1)分类分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便的计算,所以分类属于有监督的学习。2)预测
2016-05-01 22:40:00 4439
原创 数据挖掘-离群点检测
离群点检测 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。 离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动员。1)
2016-05-01 21:22:22 8784
原创 时序模式
时序模式 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。1.时间序列的预处理 到一个观察值序列后,首先要对它的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采用不同的分析方法。 对于纯随机序列,又
2016-05-01 18:20:11 12131
原创 数据挖掘-关联规则
关联规则 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系在数据中并没有直接表示出来常用关联规则算法如下表所示:算法名称算法描述Apriori关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集
2016-05-01 16:18:33 2429
原创 数据挖掘-聚类分析
聚类分析 1.常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用类标记样本构成的训练数据不同,聚类模型可以建立在五类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分成若干组,划分的原则是组内距离最小化而组间距离最大化。 常用聚类方法:
2016-05-01 10:08:41 2780
原创 数据挖掘-Logistic回归建模
Logistic回归建模 Logistic回归属于概率型非线性回归,对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为“是、否“两个取值,记为0和1。假设在自变量想,x1,x2.......,xp 作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的概率p与自变量x1,x2,x3……, xp 的关系。Logistic
2016-04-28 08:41:06 4625
原创 数据探索-特征性分析
数据探索-特征性分析分布分析 分布分析能揭示数据的分布特征和分布类型。分布分析可以从定量数据的分布分析和定性数据的分布分析两个维度去展开。1. 定量数据的分布分析 对于定量变量,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤:1)求极差2)决定组距与组数3)决定分点4)列出频率分布表5)绘制频率分布直方图遵循的主
2016-04-28 00:13:35 1394
原创 数据挖掘-数据探索
数据探索 根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性? 数据探索就是通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。数据探索可以从数据质量分析和数据特征分
2016-04-27 21:35:05 4586
原创 数据挖掘算法-时间序列
时间序列算法R实现setwd("D:/arima")library(forecast)library(fUnitRoots)Data=read.csv("D:/arima/data",header=T)[,2]sales=ts(Data)plot.ts(sales,xlab="时间", ylab="销量 / 元")#单位根检验unitrootTest(sales)
2016-04-26 21:59:21 1000
原创 数据挖掘算法-关联规则Apriori
Apriori算法R实现##设置工作空间install.packages("arules")library ( arules )#先用setwd设置工作空间,如D盘,并将相关数据拷贝到该目录下setwd("D:/apriori")#读入数据data=read.table()tr summary(tr)
2016-04-26 21:53:26 613
原创 数据挖掘算法-k-means
k-means 算法R实现#先用setwd设置工作空间,如D盘,并将相关数据拷贝到该目录下setwd("D:/k-means")#读入数据Data=read.csv("D:/k-means/data")km=kmeans(Data,center=3)print(km)km$size/sum(km$size)#数据分组aaa=data.frame(Data,k
2016-04-26 07:27:55 576
原创 数据挖掘算法-BP神经网络
BP神经网络R实现##设置工作空间#先用setwd设置工作空间,如D盘,并将相关数据拷贝到该目录下setwd("D:/BP")#读入数据Data=read.csv("D:/BP/data")#数据命名library(nnet)colnames(Data)###最终模型model1=nnet(y~.,data=Data,size=6,decay=5e-4,
2016-04-26 07:23:02 1134
原创 数据挖掘算法-ID3决策树
ID3决策树R实现##设置工作空间#先用setwd设置工作空间,如D盘,并将相关数据拷贝到该目录下setwd("D:/ID3")#读入数据data=read.csv("D:/ID3/data")#数据命名colnames(data)#计算一列数据的信息熵calculateEntropy t sum t entropy
2016-04-26 07:19:28 610
原创 数据挖掘算法逻辑回归-R实现
Logistic回归代码-R实现##设置工作空间#首先用setwd设置工作空间,如设置到D盘,并将相关数据拷贝到该目录下setwd("D:/logistic")#读入数据Data=read.csv("D:/logistic/data")#数据命名colnames(Data)#logistic回归模型glm=glm(y~x1+x2+x3+x4+x5+x6+x7+x
2016-04-26 07:05:16 1264
原创 spark源码分析-storage
Storage模块主要分为两层:1.通信层:storage模块采用的是master-slave结构来实现通信层,master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。2.存储层:storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互,stor
2016-03-07 23:27:49 439
R语言与网站分析
2017-03-04
CNN模型简单介绍(LeNet,AlexNet,VGG,GoogLeNet,ResNet,GAN,R-CNN)
2017-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人