数据挖掘
文章平均质量分 69
肥萝卜使大力
这个作者很懒,什么都没留下…
展开
-
what is VC维
1. 什么是VC维VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指标函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的K次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能转载 2012-03-30 11:03:27 · 2252 阅读 · 0 评论 -
使用R完成正太分布检验
什么是正太分布检验?判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一 概率密度曲线比较法看样本与正太分布概率密度曲线的拟合程度,R代码如下:norm_expression <- function(x) (1/sqrt(2*pi))*exp(-0.5*x^2)#curve(norm_expression, -4, 4, col="red") #标准正原创 2014-04-12 18:28:42 · 22628 阅读 · 1 评论 -
使用R完成逻辑斯蒂回归分类
直接上代码,如下:data_sample <- iris[51:150,];m <- dim(data_sample)[1] #获取数据集记录条数val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样,选取三分之二的数据作为训练集。 iris.learn <- data_sample[-v原创 2014-04-09 01:58:07 · 14594 阅读 · 1 评论 -
使用R完成Kmeans聚类
使用R完成Kmeans聚类需要调用kmeans方法,使用数据集iris完成一个小的聚类实验,代码如下:newiris <- iris;newiris$Species <- NULL; #对训练数据去掉分类标记kc <- kmeans(newiris, 3); #分类模型训练fitted(kc); #查看具体分类情况table(iris$Species, kc$cluster);原创 2014-04-07 18:42:12 · 65183 阅读 · 0 评论 -
使用R完成朴素贝叶斯分类
想和数据挖掘沾点边,所以最近在复习一些算法,因为又学了点R,深感这是个统计分析挖掘的利器,所以想用R实现一些挖掘算法。朴素贝叶斯法大概是最简单的一种挖掘算法了,《统计学习方法》在第四章做了很详细的叙述,无非是对于输入特征x,利用通过学习得到的模型计算后验概率分布,将后验概率最大的分类作为输出。根据贝叶斯定理,后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) *原创 2014-04-06 17:11:42 · 14309 阅读 · 0 评论 -
使用R完成决策树分类
关于决策树理论方面的介绍,李航的《统计机器学习》第五章有很好的讲解。传统的ID3和C4.5一般用于分类问题,其中ID3使用信息增益进行特征选择,即递归的选择分类能力最强的特征对数据进行分割,C4.5唯一不同的是使用信息增益比进行特征选择。特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)特征A对训练数据D的信息增益比r原创 2014-04-06 16:14:50 · 49170 阅读 · 0 评论 -
使用R完成K近邻分类
使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virgin原创 2014-04-06 20:50:23 · 7363 阅读 · 1 评论 -
R语言:常用统计检验方法
正态总体均值的假设检验t检验单个总体例一 某种元件的寿命X(小时),服从正态分布,N(mu,sigma^2),其中mu,sigma^2均未知,16只元件的寿命如下:问是否有理由认为元件的平均寿命大于255小时。命令:X222, 362, 168, 250, 149, 260, 485, 170)t.test(X, alternative = "greater", m转载 2014-04-13 16:04:00 · 9530 阅读 · 0 评论 -
Hadoop Streaming命令
1 Streaming命令使用下面的命令运行Streaming MapReduce程序:$HADOOP_HOME/bin/hadoop streaming args其中args是streaming参数,下面是参数列表:-input 输入数据路径-output转载 2012-10-18 12:45:48 · 2465 阅读 · 0 评论 -
DM功能
DM功能:1 概念描述:定性概念描述 对比概念描述2 关联分析(association analysis):从给定数据集中发现频繁出现的项集模式知识(即关联规则,association rules)3 分类和预测: 分类是利用分类模型对未知数据的归属和类别进行识别,分类模型通过分类挖掘算法从训练样本集合中得到,分类模型的表示方法有:分类规则(if-then)、决策树(de原创 2012-04-08 17:37:27 · 1323 阅读 · 0 评论 -
DM入门知识
数据与知识的关系:客观世界->(收集)->数据->(分析)->信息->(深入分析)->知识数据仓库(data warehousing)用于解决海量数据、多数据源的数据格式的不相容,它讲整个机构的数据以统一形式集成存储在一起,它不同于数据库,它是针对特定主题的集成的、时变的数据,这些数据一旦存入就不在变化OLAP(online analytical processing在线事物处原创 2012-04-08 11:20:19 · 1039 阅读 · 0 评论 -
使用R完成均值检验
t检验和Z检验都可用于均值检验。单样本均值检验当样本容量小于30时使用t检验,当样本容量大于30时使用Z检验Z检验使用例子:library(UsingR)x<-rnorm(50,0,5)simple.z.test(x,5)运行结果:[1] -2.947929 3.250022结果说明在置信度为95%的情况下总体的均值区间为[-2.947929 3.250022]原创 2014-04-13 15:17:07 · 17966 阅读 · 0 评论