数据挖掘
文章平均质量分 81
wangqisen
这个作者很懒,什么都没留下…
展开
-
数据挖掘之AdaBoost算法
这个算法的精髓在于,虽然其每次用的决策树的构成方式相同,但是,其每次所用的训练元祖并不同,没经过一次训练,其元祖中的那些被预测错误的元祖的权重会加大,使得下次训练更容易被选中,这样的几次训练会比较均匀,使得对于易错元祖的预测比较好。在k=8时,得出的离散型属性的预测准确度为0.73,连续型为0.95。 下面是我的代码: /* * To change this template, choo原创 2013-10-19 19:10:09 · 590 阅读 · 0 评论 -
数据挖掘之RandomForeast算法
RandomForest算法,精髓之处在于在建立决策树的时候,在每个节点进行属性选取时,是随机地选取部分属性,从中进行最优属性的选取,而不是在全部的所有属性中进行选择。建立了决策树森林之后,每次都要对这些不同的决策树进行预测,选出其中被预测最多的那个类别来作为最终的预测类别。在有5棵决策树时,我得出的对于离散属性的预测准确度为0.73,对于连续属性的预测准确度为0.96. 下面是我的Random原创 2013-10-19 19:06:33 · 684 阅读 · 0 评论 -
数据挖掘之朴素贝叶斯算法的实现
这是我数据挖掘课的作业,也就是实现一个朴素贝叶斯算法。所用的训练数据集为加州大学计算机系提供的brest-canser.data和segment.data。我得出的朴素贝叶斯算法对于离散型属性的预测准确度为0.72,对于连续型属性的预测准确度为0.79。 代码如下: /* * To change this template, choose Tools | Templates * and原创 2013-10-11 19:09:22 · 824 阅读 · 0 评论 -
k-means算法
下面是我对该算法的实现: public class Kmeans { private int K; private int colsNum; private int rowsNum; private double[][] kMedians=null; private double[][]myFeatures=null; private HashMap map=new HashM原创 2013-10-27 18:55:02 · 608 阅读 · 0 评论