数据挖掘
cq1982
这个作者很懒,什么都没留下…
展开
-
信息熵
1948 年,香农提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。 什么是信息? 信息现代定义。[2006年,医学信息(杂志),邓宇等]. 信息是物质、能量、信息及其属性的标示。逆维纳信息定义 信息是确定性的增加。逆香农信息定义 信息是事物现象及其属性标识的集合。2002年 《博弈圣经》中的信息熵: 信息熵:信息的基本作用就是消除人们对转载 2015-03-25 21:23:45 · 1148 阅读 · 2 评论 -
决策树——ID3算法的java实现
所谓决策树就是用树来帮助我们做决策,从树的根节点开始一级一级的访问节点,直到叶子节点,也就完成了决策的过程。决策树算法是描述用已知的样本来构建决策树的过程,这边用比较经典的“气候—玩”的例子来说明,描述气候有很多指标(天色、温度、湿度、风速),想得到的决策结论是是否能玩(yes or no),这边有一组已知的样本,存于weather.nominal.arff文件中,如下:@rela转载 2015-03-25 16:24:10 · 7714 阅读 · 1 评论 -
数据分类——weka的朴素贝叶斯分类器
数据分类就是给定一组样本,我们进行学习,学习的成果就是一个分类器,利用这个分类器,我们对测试数据或者正式数据进行分类,然后查看这个分类器的效果。这里我们用一个经典的“隐形眼镜”的例子来说明分类方法,首先有一组样本数据,存于contact-lenses.arff文件,如下:@relation contact-lenses@attribute age {young, pre-pr转载 2015-03-25 17:39:38 · 14260 阅读 · 3 评论 -
关联分析——FPTree的一种java实现
关联分析是用来做什么的?这边有一个经典的例子“超市购物单”,文件market内容如下:牛奶,鸡蛋,面包,薯片鸡蛋,爆米花,薯片,啤酒鸡蛋,面包,薯片牛奶,鸡蛋,面包,爆米花,薯片,啤酒牛奶,面包,啤酒鸡蛋,面包,啤酒牛奶,面包,薯片牛奶,鸡蛋,面包,黄油,薯片牛奶,鸡蛋,黄油,薯片每一行可以看作一个购物单,关联分析就是用来分析哪些物品经常会被同时购买(也就是关联度较大)。转载 2015-03-25 16:07:34 · 2206 阅读 · 4 评论