- 博客(7)
- 资源 (60)
- 收藏
- 关注
原创 Mahout源码K均值聚类算法分析(1)
今天开始分析KMeansDriver的源码,由于之前已经分析过KMeans算法的原理(其实是已经使用hadoop实现过了),所以在这里就讲原理了,而且大家对这个算法的原理基本都清楚(搞数据挖掘的最清楚的应该就算这个算法了吧)。今天要分析的内容其实可以暂时完全不使用hadoop集群,即可以暂时不用开vmware了。额,废话讲了这么多,开始分析吧。首先把下面的代码复制到java工程(这个工程是在讲
2013-07-31 20:39:16 4316 3
原创 Hadoop文本转换为序列文件
在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件,所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件(因为当时要分析mahout的源码,所以就要看到它的输入文件是什么,文本比较好看其内容)。一般这个有两种做法,其一:按照《hadoop权威指南》上面的方面直接读出序列文件然后写入一个文本;其二,编写一个job任务,直接设置输出文件的格式,这样也可以把序列文件读成文
2013-07-30 23:30:00 4149 1
原创 Mahout源码canopy聚类算法分析(3)
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF
2013-07-23 19:55:14 3770 6
原创 Mahout源码canopy聚类算法分析(2)
首先更正一点,前篇博客里面说到一个Canopy的测试的例子里面有这样的一句代码:buildClusters(Configuration conf, Path input, Path output, DistanceMeasure measure, double t1, double t2, double t3, double t4, int clusterFilter,
2013-07-22 22:24:22 3164 2
原创 Mahout聚类算法canopy源码分析(1)
对于canopy的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。昨晚准备打算使用单纯的java程序搞定输入数据的准备,无奈老是会出点问题,昨晚的问题“找不到文件”暂时还没找到原因。其实如果只是要获得输入数据那么,可以使用mahout官网提供的方法在得到了序列的*.txt文件后直接把mahout-distribution-0.7.zip解压
2013-07-21 19:06:00 4545 2
原创 Mahout算法源码(0):搭建环境及Canopy获得输入数据
使用软件:VMware6.5 、redhat、hadoop-1.0.4、eclipse、mahout-0.7(主机 为win7);1.首先使用虚拟机搭建一个伪分布式hadoop集群,在主机的浏览器中输入: 虚拟机名:50030 ,查看集群状态(可以参考配置hosts文件);2. 下载两个版本的mahout(以1.7为例),如下图所示:其中mahout-distribution
2013-07-21 00:03:45 6703 15
原创 oracle数据库、客户端安装以及ps/sql连接和导入表实例
从下面的网址下载http://www.oracle.com/technetwork/database/enterprise-edition/downloads/112010-win32soft-098987.html oracle 的数据库和客户端,下载后的文件如下:解压后面的两个数据库文件得到下面的文件列表:点击setup.exe进行数据库的安装:出现下面的提示:
2013-07-14 14:54:36 2434
Mahout案例实战 约会推荐
2015-03-11
FP关联规则置信度
2014-11-19
libimesti推荐系统
2014-09-30
nmon 和 nmon analyser工具
2014-09-24
easyui+spring+struts+hibernate 实例
2014-09-16
MR Unit test需要的相关jar包
2014-07-29
Mahout贝叶斯分类不含标签数据
2014-07-20
Mahout算法调用展示平台2.1-part3
2014-07-06
Mahout算法调用展示平台2.1-part2
2014-07-06
mahout0.9源码(支持hadoop2)
2014-04-09
博客推荐系统源码
2014-02-18
web平台调用hadoop集群2.0
2014-01-03
hadoop启动时间写入文件
2013-12-20
监控hadoop任务信息
2013-12-18
web 工程调用hadoop集群1.4
2013-12-02
flex datagrid doubleclick 实例
2013-11-22
flex dispatchEvent 实例工程
2013-11-19
web 工程调用hadoop集群1.3
2013-11-17
flex 调用java
2013-11-12
svd mahout算法
2013-10-31
读取HDFS序列化文件解析key、value可视化输出
2013-10-25
spark-yarn_2.10-1.6.0-cdh5.7.3.jar
2016-12-24
hotspot关联规则
2015-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人