- 博客(6)
- 资源 (21)
- 收藏
- 关注
原创 数据挖掘笔记-关联规则-Apriori-原理与简单实现
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。非频繁项集的超集可以不用进行测试 ,许多项之间的组合可以去掉(不满足频繁条件)由频繁项集生成满足最小支持度和最小置信度的关联规则。算法核心:逐层搜索的迭代方法,寻找最大频繁集。一个频繁项集中的任一非空子集也应是频繁项集。用于发现隐藏在大型数据集中的有意义的联系。即:任何非频繁项集的超集一定也是非频繁的。查找所有满足最小支持度和可信度的规则。的集合,若干项的集合,称为项集。蕴涵式的称为关联规则,这里。
2014-05-29 17:17:44 2098
原创 数据挖掘笔记-分类-决策树-MapReduce实现-2
下面是具体的实现代码:其中用到了JobControl来控制多Job执行,还有涉及到几个MR程序,代码未进行过整理,望见谅。4、N个小数据集的节点根据最终的最佳划分,分割自己节点上的数据,上传到HDFS,跳转到第二步。1、将一个大数据集文件拆分成N个小数据集文件,对数据做好预处理工作,上传到HDFS。3、汇总N个小数据集文件的最佳划分,投票选出最佳划分。
2014-05-28 16:38:12 2534 1
原创 数据挖掘笔记-分类-决策树-MapReduce实现-1
看了一些mahout在处理决策树和随机森林的过程,大体过程是Job只有一个Mapper处理,在map方法里面做数据的转换收集工作,然后在cleanup方法里面去做决策树的创建过程。大体来说,mahout决策树的构建过程好像并没有结合分布式计算,因为我也并没有仔仔细细的去研读mahout里面的源码,所以可能是我没发现。最后生成的决策树并未保存在HDFS上面,后面有时间在考虑下吧。之前写的代码都是单机上跑的,发现现在很流行hadoop,所以又试着用hadoop mapreduce来处理下决策树的创建。
2014-05-28 16:13:57 4916 2
原创 数据挖掘笔记-分类-决策树-随机森林
同时每个抽取出来的数据集也不一定是包含所有特征属性,其含有的特征属性也是随机从总特征属性中随机抽取。顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类,即选举投票。b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力。
2014-05-28 15:32:26 1932
原创 数据挖掘笔记-分类-决策树-SLIQ和SPRINT
所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。step1:建立类表和各个属性表,并且进行预先排序,即对每个连续属性的属性表进行独立的排序,以避免在每个节点上都要给连续属性值重新排序;
2014-05-28 14:51:52 7111 1
原创 数据挖掘笔记-分类-决策树-ID3和C4.5
在这种情况下,处理缺少属性值的通常做法是赋予该属性的常见值,或者属性均值。C4.5算法采用信息增益率作为选择分支属性的标准,并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理;构造决策树的关键步骤是分裂属性。2:用信息增益率(Information Gain Ratio)来选择属性 ,克服了用信息增益来选择属性时偏向选择值多的属性的不足。1:算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效,尤其是在大量特征属性的数据集中。
2014-05-28 14:21:29 2597 6
多级层次行政区划相关的文件
2019-09-27
winutils.exe hadoop.dll
2014-10-18
java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949
2010-09-23
eclipse快捷键eclipse快捷键eclipse快捷键
2010-09-23
[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook
2010-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人