2013年07月_fansy1990

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Mahout源码K均值聚类算法分析（1）

今天开始分析KMeansDriver的源码，由于之前已经分析过KMeans算法的原理（其实是已经使用hadoop实现过了），所以在这里就讲原理了，而且大家对这个算法的原理基本都清楚（搞数据挖掘的最清楚的应该就算这个算法了吧）。今天要分析的内容其实可以暂时完全不使用hadoop集群，即可以暂时不用开vmware了。额，废话讲了这么多，开始分析吧。首先把下面的代码复制到java工程（这个工程是在讲

2013-07-31 20:39:16 4316 3

在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件，所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件（因为当时要分析mahout的源码，所以就要看到它的输入文件是什么，文本比较好看其内容）。一般这个有两种做法，其一：按照《hadoop权威指南》上面的方面直接读出序列文件然后写入一个文本；其二，编写一个job任务，直接设置输出文件的格式，这样也可以把序列文件读成文

2013-07-30 23:30:00 4149 1

原创 Mahout源码canopy聚类算法分析（3）

经过了前面两篇文章的分析，相信大家对CanopyReducer的分析就不会碰到太大的疑问，因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样，也是把所有的样本数据分为若干组，即又按照map的操作执行了一次，那么就会有同学问了？那不是都不需要用reduce么？大家这里想一下，map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组，并且clusterF

2013-07-23 19:55:14 3770 6

原创 Mahout源码canopy聚类算法分析（2）

首先更正一点，前篇博客里面说到一个Canopy的测试的例子里面有这样的一句代码：buildClusters(Configuration conf, Path input, Path output, DistanceMeasure measure, double t1, double t2, double t3, double t4, int clusterFilter,

2013-07-22 22:24:22 3164 2

原创 Mahout聚类算法canopy源码分析（1）

对于canopy的输入数据需要的形式为序列文件，同时保证key：Text、value：VectorWritable。昨晚准备打算使用单纯的java程序搞定输入数据的准备，无奈老是会出点问题，昨晚的问题“找不到文件”暂时还没找到原因。其实如果只是要获得输入数据那么，可以使用mahout官网提供的方法在得到了序列的*.txt文件后直接把mahout-distribution-0.7.zip解压

2013-07-21 19:06:00 4545 2

原创 Mahout算法源码（0）：搭建环境及Canopy获得输入数据

使用软件：VMware6.5 、redhat、hadoop-1.0.4、eclipse、mahout-0.7（主机为win7）；1.首先使用虚拟机搭建一个伪分布式hadoop集群，在主机的浏览器中输入：虚拟机名:50030 ，查看集群状态（可以参考配置hosts文件）；2. 下载两个版本的mahout（以1.7为例），如下图所示：其中mahout-distribution

2013-07-21 00:03:45 6703 15

原创 oracle数据库、客户端安装以及ps/sql连接和导入表实例

从下面的网址下载http://www.oracle.com/technetwork/database/enterprise-edition/downloads/112010-win32soft-098987.html oracle 的数据库和客户端，下载后的文件如下：解压后面的两个数据库文件得到下面的文件列表：点击setup.exe进行数据库的安装：出现下面的提示：

2013-07-14 14:54:36 2434

Mahout案例实战约会推荐

Mahout实战案例-约会推荐系统，详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例；

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法：参考Mahout FP算法相关相关源码。只是单机版的实现，并没有MapReduce的代码，可以参考： http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》（http://blog.csdn.net/fansy1990/article/details/39692741）（1）修改Configuration目录中的db.properties中的数据库配置；（2）从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据，解压后可以看到gender.dat 和ratings.dat文件；（3）启动工程，自动生成相关表；（4）在数据库中运行sql目录下sql，导入相关数据；

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具，具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo，前台使用easyUI控件、jQuery技术，后台使用Spring、Struts、Hibernate技术。具体运行参考：http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包（不包含Hadoop环境jar包），适合Hadoop2，具体实例参考《hadoop编程小技巧（8）---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据，具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包，支持hadoop2，此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包，支持hadoop2（此为第一部分）

2014-04-09

mahout0.9源码（支持hadoop2）

mahout0.9的源码，支持hadoop2，需要自行使用mvn编译。mvn编译使用命令： mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,（使用hadoop2）

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar，具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar，可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方： 1. 打开mysql，增加blog数据库；修改src下面的jdbc.properties文件的用户名和密码； 2. 修改blog.xml（和Readme.txt同目录）的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面； 3. 修改applicationContext.xml文件中的自动生成表的配置（hibernate.hbm2ddl.auto），第一次启动为create，后面改为update； 4. 启动服务器，运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息（需要修改UserGenerate.java中云平台相关配置）; 版本：Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Mahout案例实战 约会推荐

java web程序调用hadoop2.6

FP关联规则置信度

libimesti推荐系统

nmon 和 nmon analyser工具

easyui+spring+struts+hibernate 实例

MR Unit test需要的相关jar包

Mahout贝叶斯分类不含标签数据

Mahout算法调用展示平台2.1-part3

Mahout算法调用展示平台2.1-part2

Mahout算法调用展示平台2.1

cdh50beta part2

cdh50beta shim 包

mahout0.9 jar支持hadoop2

mahout0.9 jar包支持hadoop2

mahout0.9源码（支持hadoop2）

phoenix2.2

phoenix2.2.2

hadoop2 MR运行修改jar

hadoop左连接

博客推荐系统源码

web平台调用hadoop集群2.0

hadoop启动时间写入文件

监控hadoop任务信息

web 工程调用hadoop集群1.4

flex struts2文件上传

flex datagrid doubleclick 实例

flex dispatchEvent 实例工程

web 工程调用hadoop集群1.3

flex 调用java

svd mahout算法

读取HDFS序列化文件解析key、value可视化输出

bazel-0.5.4

TensorFlow1.3.0 on centos6.5

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

冠字号查询系统数据

hdp一键部署脚本

storm实时单词计数

hotspot关联规则

hotspot算法源码

空空如也

Mahout案例实战约会推荐