- 博客(21)
- 资源 (60)
- 收藏
- 关注
原创 redhat6.3安装MySQL
首先下面下面三个文件: MySQL-client-5.6.13-1.el6.x86_64.rpm MySQL-devel-5.6.13-1.el6.x86_64.rpm MySQL-server-5.6.13-1.el6.x86_64.rpm然后使用root账号登陆,进行安装: 1. 安装server、devel、client: rpm -ivh --replacefiles MySQL-s
2013-08-30 18:38:54 4149
原创 Mahout贝叶斯算法源码分析(2-3)
接上篇,如果想对上篇的问题进行测试其实可以简单的编写下面的代码: package mahout.fansy.test.bayes.write; import java.io.IOException; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.F
2013-08-30 00:49:35 2758
原创 Mahout贝叶斯算法源码分析(2-2)
接上篇,SequenceFileTokenizerMapper的输出文件在/home/mahout/mahout-work-mahout0/20news-vectors/tokenized-documents/part-m-00000文件即可查看,同时可以编写下面的代码来读取该文件(该代码是根据前面读出聚类中心点文件改编的),如下: package mahout.fansy.test.bayes
2013-08-29 21:03:48 3016
原创 Mahout贝叶斯算法源码分析(2-1)
seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)Vect
2013-08-29 01:42:49 3826 3
原创 Mahout贝叶斯算法源码分析(1)
继前篇mahout 中Twenty Newsgroups Classification运行实例,本篇主要分析该算法的各个任务,首先是第一个任务,即seqdirectory,在提示信息里面的内容如下: + ./bin/mahout seqdirectory -i /home/mahout/mahout-work-mahout/20news-all -o /home/mahout/mahout-wo
2013-08-28 00:15:51 4265 2
原创 Mahout贝叶斯算法实例--Twenty Newsgroups Classification
按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法,我只用运行一条命令就可以完成这个算法的调用了,如下: mahout@ubuntu:~/mahout-d-0.7/examples/bin$ ./classify-20newsgroups.sh 但是,我首先运行就出错了,因为我不是ro
2013-08-27 00:03:07 4828
原创 redhat 6.3 64位安装中文输入法全过程记录
首先,修改/etc/profile文件,在末尾增加两行: export LC_ALL="zh_CN.UTF-8" export LANG="zh_CN.UTF-8"接着修改/etc/sysconfig/i18n,如下: #LANG="en_US.UTF-8" LANG="zh_CN.UTF-8" SYSFONT="latarcyrheb-sun16"接着安装上篇博客所讲,把yum更新完成,使
2013-08-26 14:59:39 3538
原创 redhat6.3 64位更新源(使用网易源)全过程记录
本篇博客参考:http://chinaxiaoyu.diandian.com/post/2013-01-24/40046529897。首先在浏览器中输入http://tel.mirrors.163.com/centos/ 查看最新的版本,截止到今天是6.4,然后就使用6.4的源; 在目录http://tel.mirrors.163.com/centos/6.4/os/x86_64/Package
2013-08-26 12:42:13 3607
原创 Mahout源码MeanShiftCanopy聚类算法分析(3-1)
首先贴上MeanShiftCanopyReducer的仿造代码,如下: package mahout.fansy.meanshift; import java.io.IOException; import java.util.Collection; import java.util.HashMap; import java.util.Map; import org.apache.hadoop
2013-08-25 01:17:08 2358
原创 Mahout源码MeanShiftCanopy聚类算法分析(3)
继上篇博客,分析MeanShiftCanopyMapperFollow: 首先要获得数据,MeanShiftCanopyMapperFollow的getMapData函数是改编自KMeansDriver中的一段代码,主要是读取序列文件的Value值,把这些Value值返回一个变量,其中涉及到强制转型,这里转型的代码改编一下就可以适应来读取不同的序列文件的value值了。 因为使用的是synth
2013-08-24 19:34:22 2317
原创 Mahout源码MeanShiftCanopy聚类算法分析(2)
首先更正一点,昨天处理数据的时候是有问题的,直接从网页中拷贝的文件的空格是有问题的,直接拷贝然后新建的文件中的空格可能有一个两个、三个的,所以要把两个或者三个的都换为一个,在InputMapper中下面的代码: private static final Pattern SPACE = Pattern.compile(" "); String[] numbers = SPACE.split(val
2013-08-23 01:32:40 2408 1
原创 Mahout源码MeanShiftCanopy聚类算法分析(1)
如果要先把meanshift算法先跑一遍的话,可以直接使用synthetic_control.data数据来做,把synthetic_control.data 下载赋值到一个文本文件中,然后上传到HDFS文件系统上面,使用下面的命令: bin/hadoop fs -put synthetic_control.data testdata;上传完毕后直接在mahout中运行:bin/mahout
2013-08-22 01:32:11 2980
原创 Redhat6.3安装Matlab运行时MCR7.8
redhat6.3安装完matlab2008a后在目录$MATLAB_HOME/toolbox/compiler/deploy/glnxa64中有MCRInstaller.bin 使用这个安装MCR即matlab运行时,默认安装在/opt/MATLAB/MATLAB_Compiler_Runtime中。至此运行时安装完毕,下面进行配置。 首先说明一点,此次试验只能在终端设置MCR的环境变量,不能
2013-08-15 17:45:25 3591 3
原创 mahout源码K均值聚类算法分析(7)
好吧,我上篇博客的仿造CIReducer的代码的确是有误的,错在哪?map输出的中心点是两个不错,但是其key是不一样的,所以要送到不同的reduce函数中(注意这里是函数,而非reducer,如果是同一个key则要送到同一个reduce中),所以不是一个for循环就搞定的,应该要key的个数个for循环才行。那就是说reducer中的reduce函数一次只能接受一个中心点了(针对一直使用的数据来
2013-08-08 20:55:41 2634 2
原创 mahout源码K均值算法分析(6)
接上文重点分析map操作: Vector probabilities = classifier.classify(value.get());// 第一行 Vector selections = policy.select(probabilities); // 第二行 for (Iterator it = selections.iterateNonZero(); it
2013-08-07 01:36:02 2389
转载 Oracle12 安装:请确保当前用户具有访问临时文件的权限
今天兴冲冲的安装了oracle12 ,因为有了4G内存所以想玩下,结果就背景了。安装失败,上google搜说要共享c盘,然后我就共享了。 然后我把杀毒关闭了,然后又特意使用右键 以管理员身份运行,结果还是不行,mark一下,以后有机会 再解决。网上的一个解决方法说:http://www.itpub.net/thread-1802827-1-1.html 可以解决,但是我没有解决,可能和自
2013-08-06 11:29:42 4015
原创 Mahout源码K均值聚类算法分析(5)
接着上篇,继续分析代码。下面就到了MR的循环了,这里MR应该算是比较好理解的,重点是退出循环的条件设置,即如何判断前后两次中心点误差小于给定阈值。 首先,while循环: while (iteration <= numIterations) { conf.set(PRIOR_PATH_KEY, priorPath.toString()); String
2013-08-06 00:30:53 3012
原创 Mahout源码K均值聚类算法分析(4)
昨天说到没什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件系统(我又换回虚拟机了,因为我加了2G内存。。。所以改为了hadoop:9000),实验证明,是可以的。比如编写下面的测试程序: package mahout.fansy.test.kmeans.middle; import java.i
2013-08-05 20:58:43 2559
原创 Mahout源码K均值聚类算法分析(3)
之前的关于中心点文件的分析基本是对的,但是在第一篇整体分析的时候没有说如何产生中心点向量文件所以在第二篇写了如何得到,其实在mahout里面有一个自动生成中心点文件的方法,之前漏掉了。现在补上,首先编写下面的debug代码: package mahout.fansy.test.kmeans; import java.io.IOException; import org.apache.hadoop
2013-08-05 00:08:46 3318
原创 Call to hostname/x.x.x.x:9000 failed on connection exception:java.net.ConnectException
这两天都是在宿舍编程调试mahout的,所以打算直接使用另外一个笔记本,远程另外一个笔记本(B),省的这个笔记本(A)内存占用太多了,基本都是1.7 ,1.8左右了,开着虚拟机跑hadoop很卡。虽然说是远程调用,但是我A机开了myeclipse等等基本内存也占用到了1.4左右,悲催呀,看来要配内存了。废话不说了,进入正题。 首先说下B机器,B是我以前用的,也部署了一个伪分布式 hadoop集群
2013-08-04 02:00:31 3942
原创 Mahout源码K均值聚类算分析(2)
首先说下,为什么题目后面会有个“无语篇”,因为我觉得今晚这几个钟头太坑爹了。为什么,且听我慢慢道来: 按照昨天的计划,我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是?所以我最开始做的就是仿造clusterIn的数据,即中心向量的文件。昨天也说过中心向量文件应该就是把一组(key,value)对(要求value的格式为ClusterWritable,key格式任意)写入一个序列文件
2013-08-02 01:53:55 4253 1
Mahout案例实战 约会推荐
2015-03-11
FP关联规则置信度
2014-11-19
libimesti推荐系统
2014-09-30
nmon 和 nmon analyser工具
2014-09-24
easyui+spring+struts+hibernate 实例
2014-09-16
MR Unit test需要的相关jar包
2014-07-29
Mahout贝叶斯分类不含标签数据
2014-07-20
Mahout算法调用展示平台2.1-part3
2014-07-06
Mahout算法调用展示平台2.1-part2
2014-07-06
mahout0.9源码(支持hadoop2)
2014-04-09
博客推荐系统源码
2014-02-18
web平台调用hadoop集群2.0
2014-01-03
hadoop启动时间写入文件
2013-12-20
监控hadoop任务信息
2013-12-18
web 工程调用hadoop集群1.4
2013-12-02
flex datagrid doubleclick 实例
2013-11-22
flex dispatchEvent 实例工程
2013-11-19
web 工程调用hadoop集群1.3
2013-11-17
flex 调用java
2013-11-12
svd mahout算法
2013-10-31
读取HDFS序列化文件解析key、value可视化输出
2013-10-25
spark-yarn_2.10-1.6.0-cdh5.7.3.jar
2016-12-24
hotspot关联规则
2015-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人