2013年08月_fansy1990

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 redhat6.3安装MySQL

首先下面下面三个文件： MySQL-client-5.6.13-1.el6.x86_64.rpm MySQL-devel-5.6.13-1.el6.x86_64.rpm MySQL-server-5.6.13-1.el6.x86_64.rpm然后使用root账号登陆，进行安装： 1. 安装server、devel、client： rpm -ivh --replacefiles MySQL-s

2013-08-30 18:38:54 4149

原创 Mahout贝叶斯算法源码分析（2-3）

接上篇，如果想对上篇的问题进行测试其实可以简单的编写下面的代码： package mahout.fansy.test.bayes.write; import java.io.IOException; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.F

2013-08-30 00:49:35 2758

原创 Mahout贝叶斯算法源码分析（2-2）

接上篇，SequenceFileTokenizerMapper的输出文件在/home/mahout/mahout-work-mahout0/20news-vectors/tokenized-documents/part-m-00000文件即可查看，同时可以编写下面的代码来读取该文件（该代码是根据前面读出聚类中心点文件改编的），如下： package mahout.fansy.test.bayes

2013-08-29 21:03:48 3016

seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles，从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息，分别是：（1）DocumentTokenizer（2）WordCount（3）MakePartialVectors（4）MergePartialVectors（5）Vect

2013-08-29 01:42:49 3826 3

原创 Mahout贝叶斯算法源码分析（1）

继前篇mahout 中Twenty Newsgroups Classification运行实例，本篇主要分析该算法的各个任务，首先是第一个任务，即seqdirectory，在提示信息里面的内容如下： + ./bin/mahout seqdirectory -i /home/mahout/mahout-work-mahout/20news-all -o /home/mahout/mahout-wo

2013-08-28 00:15:51 4265 2

原创 Mahout贝叶斯算法实例--Twenty Newsgroups Classification

按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法，我只用运行一条命令就可以完成这个算法的调用了，如下： mahout@ubuntu:~/mahout-d-0.7/examples/bin$ ./classify-20newsgroups.sh 但是，我首先运行就出错了，因为我不是ro

2013-08-27 00:03:07 4828

原创 redhat 6.3 64位安装中文输入法全过程记录

首先，修改/etc/profile文件，在末尾增加两行： export LC_ALL="zh_CN.UTF-8" export LANG="zh_CN.UTF-8"接着修改/etc/sysconfig/i18n，如下： #LANG="en_US.UTF-8" LANG="zh_CN.UTF-8" SYSFONT="latarcyrheb-sun16"接着安装上篇博客所讲，把yum更新完成，使

2013-08-26 14:59:39 3538

原创 redhat6.3 64位更新源（使用网易源）全过程记录

本篇博客参考：http://chinaxiaoyu.diandian.com/post/2013-01-24/40046529897。首先在浏览器中输入http://tel.mirrors.163.com/centos/ 查看最新的版本，截止到今天是6.4，然后就使用6.4的源；在目录http://tel.mirrors.163.com/centos/6.4/os/x86_64/Package

2013-08-26 12:42:13 3607

原创 Mahout源码MeanShiftCanopy聚类算法分析（3-1）

首先贴上MeanShiftCanopyReducer的仿造代码，如下： package mahout.fansy.meanshift; import java.io.IOException; import java.util.Collection; import java.util.HashMap; import java.util.Map; import org.apache.hadoop

2013-08-25 01:17:08 2358

原创 Mahout源码MeanShiftCanopy聚类算法分析（3）

继上篇博客，分析MeanShiftCanopyMapperFollow：首先要获得数据，MeanShiftCanopyMapperFollow的getMapData函数是改编自KMeansDriver中的一段代码，主要是读取序列文件的Value值，把这些Value值返回一个变量，其中涉及到强制转型，这里转型的代码改编一下就可以适应来读取不同的序列文件的value值了。因为使用的是synth

2013-08-24 19:34:22 2317

原创 Mahout源码MeanShiftCanopy聚类算法分析（2）

首先更正一点，昨天处理数据的时候是有问题的，直接从网页中拷贝的文件的空格是有问题的，直接拷贝然后新建的文件中的空格可能有一个两个、三个的，所以要把两个或者三个的都换为一个，在InputMapper中下面的代码： private static final Pattern SPACE = Pattern.compile(" "); String[] numbers = SPACE.split(val

2013-08-23 01:32:40 2408 1

原创 Mahout源码MeanShiftCanopy聚类算法分析（1）

如果要先把meanshift算法先跑一遍的话，可以直接使用synthetic_control.data数据来做，把synthetic_control.data 下载赋值到一个文本文件中，然后上传到HDFS文件系统上面，使用下面的命令： bin/hadoop fs -put synthetic_control.data testdata；上传完毕后直接在mahout中运行：bin/mahout

2013-08-22 01:32:11 2980

原创 Redhat6.3安装Matlab运行时MCR7.8

redhat6.3安装完matlab2008a后在目录$MATLAB_HOME/toolbox/compiler/deploy/glnxa64中有MCRInstaller.bin 使用这个安装MCR即matlab运行时，默认安装在/opt/MATLAB/MATLAB_Compiler_Runtime中。至此运行时安装完毕，下面进行配置。首先说明一点，此次试验只能在终端设置MCR的环境变量，不能

2013-08-15 17:45:25 3591 3

原创 mahout源码K均值聚类算法分析（7）

好吧，我上篇博客的仿造CIReducer的代码的确是有误的，错在哪？map输出的中心点是两个不错，但是其key是不一样的，所以要送到不同的reduce函数中（注意这里是函数，而非reducer，如果是同一个key则要送到同一个reduce中），所以不是一个for循环就搞定的，应该要key的个数个for循环才行。那就是说reducer中的reduce函数一次只能接受一个中心点了（针对一直使用的数据来

2013-08-08 20:55:41 2634 2

原创 mahout源码K均值算法分析（6）

接上文重点分析map操作： Vector probabilities = classifier.classify(value.get());// 第一行 Vector selections = policy.select(probabilities); // 第二行 for (Iterator it = selections.iterateNonZero(); it

2013-08-07 01:36:02 2389

转载 Oracle12 安装：请确保当前用户具有访问临时文件的权限

今天兴冲冲的安装了oracle12 ，因为有了4G内存所以想玩下，结果就背景了。安装失败，上google搜说要共享c盘，然后我就共享了。然后我把杀毒关闭了，然后又特意使用右键以管理员身份运行，结果还是不行，mark一下，以后有机会再解决。网上的一个解决方法说：http://www.itpub.net/thread-1802827-1-1.html 可以解决，但是我没有解决，可能和自

2013-08-06 11:29:42 4015

原创 Mahout源码K均值聚类算法分析（5）

接着上篇，继续分析代码。下面就到了MR的循环了，这里MR应该算是比较好理解的，重点是退出循环的条件设置，即如何判断前后两次中心点误差小于给定阈值。首先，while循环： while (iteration <= numIterations) { conf.set(PRIOR_PATH_KEY, priorPath.toString()); String

2013-08-06 00:30:53 3012

原创 Mahout源码K均值聚类算法分析（4）

昨天说到没什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件系统（我又换回虚拟机了，因为我加了2G内存。。。所以改为了hadoop:9000），实验证明，是可以的。比如编写下面的测试程序： package mahout.fansy.test.kmeans.middle; import java.i

2013-08-05 20:58:43 2559

原创 Mahout源码K均值聚类算法分析（3）

之前的关于中心点文件的分析基本是对的，但是在第一篇整体分析的时候没有说如何产生中心点向量文件所以在第二篇写了如何得到，其实在mahout里面有一个自动生成中心点文件的方法，之前漏掉了。现在补上，首先编写下面的debug代码： package mahout.fansy.test.kmeans; import java.io.IOException; import org.apache.hadoop

2013-08-05 00:08:46 3318

原创 Call to hostname/x.x.x.x:9000 failed on connection exception:java.net.ConnectException

这两天都是在宿舍编程调试mahout的，所以打算直接使用另外一个笔记本，远程另外一个笔记本（B），省的这个笔记本（A）内存占用太多了，基本都是1.7 ，1.8左右了，开着虚拟机跑hadoop很卡。虽然说是远程调用，但是我A机开了myeclipse等等基本内存也占用到了1.4左右，悲催呀，看来要配内存了。废话不说了，进入正题。首先说下B机器，B是我以前用的，也部署了一个伪分布式 hadoop集群

2013-08-04 02:00:31 3942

原创 Mahout源码K均值聚类算分析（2）

首先说下，为什么题目后面会有个“无语篇”，因为我觉得今晚这几个钟头太坑爹了。为什么，且听我慢慢道来：按照昨天的计划，我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是？所以我最开始做的就是仿造clusterIn的数据，即中心向量的文件。昨天也说过中心向量文件应该就是把一组（key，value）对（要求value的格式为ClusterWritable，key格式任意）写入一个序列文件

2013-08-02 01:53:55 4253 1

Mahout案例实战约会推荐

Mahout实战案例-约会推荐系统，详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例；

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法：参考Mahout FP算法相关相关源码。只是单机版的实现，并没有MapReduce的代码，可以参考： http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》（http://blog.csdn.net/fansy1990/article/details/39692741）（1）修改Configuration目录中的db.properties中的数据库配置；（2）从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据，解压后可以看到gender.dat 和ratings.dat文件；（3）启动工程，自动生成相关表；（4）在数据库中运行sql目录下sql，导入相关数据；

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具，具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo，前台使用easyUI控件、jQuery技术，后台使用Spring、Struts、Hibernate技术。具体运行参考：http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包（不包含Hadoop环境jar包），适合Hadoop2，具体实例参考《hadoop编程小技巧（8）---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据，具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包，支持hadoop2，此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包，支持hadoop2（此为第一部分）

2014-04-09

mahout0.9源码（支持hadoop2）

mahout0.9的源码，支持hadoop2，需要自行使用mvn编译。mvn编译使用命令： mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,（使用hadoop2）

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar，具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar，可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方： 1. 打开mysql，增加blog数据库；修改src下面的jdbc.properties文件的用户名和密码； 2. 修改blog.xml（和Readme.txt同目录）的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面； 3. 修改applicationContext.xml文件中的自动生成表的配置（hibernate.hbm2ddl.auto），第一次启动为create，后面改为update； 4. 启动服务器，运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息（需要修改UserGenerate.java中云平台相关配置）; 版本：Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Mahout案例实战 约会推荐

java web程序调用hadoop2.6

FP关联规则置信度

libimesti推荐系统

nmon 和 nmon analyser工具

easyui+spring+struts+hibernate 实例

MR Unit test需要的相关jar包

Mahout贝叶斯分类不含标签数据

Mahout算法调用展示平台2.1-part3

Mahout算法调用展示平台2.1-part2

Mahout算法调用展示平台2.1

cdh50beta part2

cdh50beta shim 包

mahout0.9 jar支持hadoop2

mahout0.9 jar包支持hadoop2

mahout0.9源码（支持hadoop2）

phoenix2.2

phoenix2.2.2

hadoop2 MR运行修改jar

hadoop左连接

博客推荐系统源码

web平台调用hadoop集群2.0

hadoop启动时间写入文件

监控hadoop任务信息

web 工程调用hadoop集群1.4

flex struts2文件上传

flex datagrid doubleclick 实例

flex dispatchEvent 实例工程

web 工程调用hadoop集群1.3

flex 调用java

svd mahout算法

读取HDFS序列化文件解析key、value可视化输出

bazel-0.5.4

TensorFlow1.3.0 on centos6.5

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

冠字号查询系统数据

hdp一键部署脚本

storm实时单词计数

hotspot关联规则

hotspot算法源码

空空如也

Mahout案例实战约会推荐