数据挖掘
buaalei
这个作者很懒,什么都没留下…
展开
-
Weka -- 聚类算法之K-means
聚类分析中的“类”(cluster)和分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。 K均值算法首先随机的指定K个簇中心。然后:1)将每个实例分配到距它最近的簇中心,得到K转载 2011-12-27 16:05:32 · 11662 阅读 · 0 评论 -
Weka -- 分类算法之C4.5
WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,我们希望根据一个样本的一组特征,对目标进行预测。为了实现这一目的, 我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了,衡量模型的好坏就在于预测的准确程度。 在WEK转载 2011-12-27 15:13:29 · 17025 阅读 · 2 评论 -
Weka -- 数据格式基本介绍
Weka是什么不多介绍,直接切入正题,简单介绍Weka的数据格式。Weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。如下例,weka自带的weather.arff文件。% ARFF file for the weather data with some numric features % @relatio转载 2011-12-26 15:21:29 · 22958 阅读 · 0 评论 -
数据挖掘领域十大经典算法 --- EM算法
算法数学原理可参考:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlEM算法的目标是找出有隐性变量的概率模型的最大可能性解,包括两个步骤:由E步和M步组成,它是通过迭代地最大化完整数据的对数似然函数Lc( X;Θ )的期望来最大化不完整数据的对数似然函数,其中:Lc(X;Θ) =log p(X,Y |Θ转载 2011-12-20 22:16:05 · 6022 阅读 · 1 评论 -
数据挖掘领域十大经典算法 --- 决策树算法 ID3/C4.5
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。基本算法:1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支2.将样本划分成多个子集,一个子集对应于一个分支3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本4.如果在一个节点上转载 2011-12-20 21:40:25 · 3803 阅读 · 0 评论 -
Weka --- 关联规则挖掘
算法属性设置:1.car:如果设为真,则会挖掘类关联规则而不是全局关联规则。2.classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。3.delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。4.lowerBoundMinSupport: 最小支持度下界。5.metricType: 度量类型,设置对规则进行排序的转载 2011-12-26 17:06:29 · 6238 阅读 · 2 评论