自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fansy1990的专栏

一日一积累

  • 博客(21)
  • 资源 (60)
  • 收藏
  • 关注

原创 redhat6.3安装MySQL

首先下面下面三个文件: MySQL-client-5.6.13-1.el6.x86_64.rpm MySQL-devel-5.6.13-1.el6.x86_64.rpm MySQL-server-5.6.13-1.el6.x86_64.rpm然后使用root账号登陆,进行安装: 1. 安装server、devel、client: rpm -ivh --replacefiles MySQL-s

2013-08-30 18:38:54 4149

原创 Mahout贝叶斯算法源码分析(2-3)

接上篇,如果想对上篇的问题进行测试其实可以简单的编写下面的代码: package mahout.fansy.test.bayes.write; import java.io.IOException; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.F

2013-08-30 00:49:35 2758

原创 Mahout贝叶斯算法源码分析(2-2)

接上篇,SequenceFileTokenizerMapper的输出文件在/home/mahout/mahout-work-mahout0/20news-vectors/tokenized-documents/part-m-00000文件即可查看,同时可以编写下面的代码来读取该文件(该代码是根据前面读出聚类中心点文件改编的),如下: package mahout.fansy.test.bayes

2013-08-29 21:03:48 3016

原创 Mahout贝叶斯算法源码分析(2-1)

seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)Vect

2013-08-29 01:42:49 3826 3

原创 Mahout贝叶斯算法源码分析(1)

继前篇mahout 中Twenty Newsgroups Classification运行实例,本篇主要分析该算法的各个任务,首先是第一个任务,即seqdirectory,在提示信息里面的内容如下: + ./bin/mahout seqdirectory -i /home/mahout/mahout-work-mahout/20news-all -o /home/mahout/mahout-wo

2013-08-28 00:15:51 4265 2

原创 Mahout贝叶斯算法实例--Twenty Newsgroups Classification

按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法,我只用运行一条命令就可以完成这个算法的调用了,如下: mahout@ubuntu:~/mahout-d-0.7/examples/bin$ ./classify-20newsgroups.sh 但是,我首先运行就出错了,因为我不是ro

2013-08-27 00:03:07 4828

原创 redhat 6.3 64位安装中文输入法全过程记录

首先,修改/etc/profile文件,在末尾增加两行: export LC_ALL="zh_CN.UTF-8" export LANG="zh_CN.UTF-8"接着修改/etc/sysconfig/i18n,如下: #LANG="en_US.UTF-8" LANG="zh_CN.UTF-8" SYSFONT="latarcyrheb-sun16"接着安装上篇博客所讲,把yum更新完成,使

2013-08-26 14:59:39 3538

原创 redhat6.3 64位更新源(使用网易源)全过程记录

本篇博客参考:http://chinaxiaoyu.diandian.com/post/2013-01-24/40046529897。首先在浏览器中输入http://tel.mirrors.163.com/centos/ 查看最新的版本,截止到今天是6.4,然后就使用6.4的源; 在目录http://tel.mirrors.163.com/centos/6.4/os/x86_64/Package

2013-08-26 12:42:13 3607

原创 Mahout源码MeanShiftCanopy聚类算法分析(3-1)

首先贴上MeanShiftCanopyReducer的仿造代码,如下: package mahout.fansy.meanshift; import java.io.IOException; import java.util.Collection; import java.util.HashMap; import java.util.Map; import org.apache.hadoop

2013-08-25 01:17:08 2358

原创 Mahout源码MeanShiftCanopy聚类算法分析(3)

继上篇博客,分析MeanShiftCanopyMapperFollow: 首先要获得数据,MeanShiftCanopyMapperFollow的getMapData函数是改编自KMeansDriver中的一段代码,主要是读取序列文件的Value值,把这些Value值返回一个变量,其中涉及到强制转型,这里转型的代码改编一下就可以适应来读取不同的序列文件的value值了。 因为使用的是synth

2013-08-24 19:34:22 2317

原创 Mahout源码MeanShiftCanopy聚类算法分析(2)

首先更正一点,昨天处理数据的时候是有问题的,直接从网页中拷贝的文件的空格是有问题的,直接拷贝然后新建的文件中的空格可能有一个两个、三个的,所以要把两个或者三个的都换为一个,在InputMapper中下面的代码: private static final Pattern SPACE = Pattern.compile(" "); String[] numbers = SPACE.split(val

2013-08-23 01:32:40 2408 1

原创 Mahout源码MeanShiftCanopy聚类算法分析(1)

如果要先把meanshift算法先跑一遍的话,可以直接使用synthetic_control.data数据来做,把synthetic_control.data 下载赋值到一个文本文件中,然后上传到HDFS文件系统上面,使用下面的命令: bin/hadoop fs -put synthetic_control.data testdata;上传完毕后直接在mahout中运行:bin/mahout

2013-08-22 01:32:11 2980

原创 Redhat6.3安装Matlab运行时MCR7.8

redhat6.3安装完matlab2008a后在目录$MATLAB_HOME/toolbox/compiler/deploy/glnxa64中有MCRInstaller.bin 使用这个安装MCR即matlab运行时,默认安装在/opt/MATLAB/MATLAB_Compiler_Runtime中。至此运行时安装完毕,下面进行配置。 首先说明一点,此次试验只能在终端设置MCR的环境变量,不能

2013-08-15 17:45:25 3591 3

原创 mahout源码K均值聚类算法分析(7)

好吧,我上篇博客的仿造CIReducer的代码的确是有误的,错在哪?map输出的中心点是两个不错,但是其key是不一样的,所以要送到不同的reduce函数中(注意这里是函数,而非reducer,如果是同一个key则要送到同一个reduce中),所以不是一个for循环就搞定的,应该要key的个数个for循环才行。那就是说reducer中的reduce函数一次只能接受一个中心点了(针对一直使用的数据来

2013-08-08 20:55:41 2634 2

原创 mahout源码K均值算法分析(6)

接上文重点分析map操作: Vector probabilities = classifier.classify(value.get());// 第一行 Vector selections = policy.select(probabilities); // 第二行 for (Iterator it = selections.iterateNonZero(); it

2013-08-07 01:36:02 2389

转载 Oracle12 安装:请确保当前用户具有访问临时文件的权限

今天兴冲冲的安装了oracle12 ,因为有了4G内存所以想玩下,结果就背景了。安装失败,上google搜说要共享c盘,然后我就共享了。 然后我把杀毒关闭了,然后又特意使用右键 以管理员身份运行,结果还是不行,mark一下,以后有机会 再解决。网上的一个解决方法说:http://www.itpub.net/thread-1802827-1-1.html 可以解决,但是我没有解决,可能和自

2013-08-06 11:29:42 4015

原创 Mahout源码K均值聚类算法分析(5)

接着上篇,继续分析代码。下面就到了MR的循环了,这里MR应该算是比较好理解的,重点是退出循环的条件设置,即如何判断前后两次中心点误差小于给定阈值。 首先,while循环: while (iteration <= numIterations) { conf.set(PRIOR_PATH_KEY, priorPath.toString()); String

2013-08-06 00:30:53 3012

原创 Mahout源码K均值聚类算法分析(4)

昨天说到没什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件系统(我又换回虚拟机了,因为我加了2G内存。。。所以改为了hadoop:9000),实验证明,是可以的。比如编写下面的测试程序: package mahout.fansy.test.kmeans.middle; import java.i

2013-08-05 20:58:43 2559

原创 Mahout源码K均值聚类算法分析(3)

之前的关于中心点文件的分析基本是对的,但是在第一篇整体分析的时候没有说如何产生中心点向量文件所以在第二篇写了如何得到,其实在mahout里面有一个自动生成中心点文件的方法,之前漏掉了。现在补上,首先编写下面的debug代码: package mahout.fansy.test.kmeans; import java.io.IOException; import org.apache.hadoop

2013-08-05 00:08:46 3318

原创 Call to hostname/x.x.x.x:9000 failed on connection exception:java.net.ConnectException

这两天都是在宿舍编程调试mahout的,所以打算直接使用另外一个笔记本,远程另外一个笔记本(B),省的这个笔记本(A)内存占用太多了,基本都是1.7 ,1.8左右了,开着虚拟机跑hadoop很卡。虽然说是远程调用,但是我A机开了myeclipse等等基本内存也占用到了1.4左右,悲催呀,看来要配内存了。废话不说了,进入正题。 首先说下B机器,B是我以前用的,也部署了一个伪分布式 hadoop集群

2013-08-04 02:00:31 3942

原创 Mahout源码K均值聚类算分析(2)

首先说下,为什么题目后面会有个“无语篇”,因为我觉得今晚这几个钟头太坑爹了。为什么,且听我慢慢道来: 按照昨天的计划,我应该把代码仿造成单机可运行的代码。但是首先我要有输入数据不是?所以我最开始做的就是仿造clusterIn的数据,即中心向量的文件。昨天也说过中心向量文件应该就是把一组(key,value)对(要求value的格式为ClusterWritable,key格式任意)写入一个序列文件

2013-08-02 01:53:55 4253 1

Mahout案例实战 约会推荐

Mahout实战案例-约会推荐系统,详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例;

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法:参考Mahout FP算法相关相关源码。 只是单机版的实现,并没有MapReduce的代码,可以参考: http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》(http://blog.csdn.net/fansy1990/article/details/39692741) (1)修改Configuration目录中的db.properties中的数据库配置; (2)从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据,解压后可以看到gender.dat 和ratings.dat文件; (3)启动工程,自动生成相关表; (4)在数据库中运行sql目录下sql,导入相关数据;

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具,具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo,前台使用easyUI控件、jQuery技术,后台使用Spring、Struts、Hibernate技术。具体运行参考:http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包(不包含Hadoop环境jar包),适合Hadoop2,具体实例参考《hadoop编程小技巧(8)---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据,具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包,支持hadoop2,此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包,支持hadoop2(此为第一部分)

2014-04-09

mahout0.9源码(支持hadoop2)

mahout0.9的源码,支持hadoop2,需要自行使用mvn编译。mvn编译使用命令: mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,(使用hadoop2)

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar,具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar,可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方: 1. 打开mysql,增加blog数据库;修改src下面的jdbc.properties文件的用户名和密码; 2. 修改blog.xml(和Readme.txt同目录)的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面; 3. 修改applicationContext.xml文件中的自动生成表的配置(hibernate.hbm2ddl.auto),第一次启动为create,后面改为update; 4. 启动服务器,运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息(需要修改UserGenerate.java中云平台相关配置); 版本:Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

web平台调用hadoop集群2.0

web平台调用hadoop集群的升级版,要求所配置的hadoop集群需要把工程下面的所有class文件打包放入hadoop的lib目录下面。具体参考lz的blog介绍。

2014-01-03

hadoop启动时间写入文件

hadoop:1.0.4 修改JobTracker源码,把JobTracker启动时间写入文件/private/jobtracker/starttime (hdfs文件系统); 只需替换hadoop-core-1.0.4.jar文件,然后重启系统集群即可,启动后就可以在hdfs文件系统看到/private/jobtracker/starttime中有的启动时间。

2013-12-20

监控hadoop任务信息

hadoop:1.0.4,struct:2.3。 说明:hadoop云平台任务监控信息页面,仿效50030界面,提前获得10个未运行任务的id,然后显示这些id的信息;具体参考最新bolg。

2013-12-18

web 工程调用hadoop集群1.4

web 工程调用hadoop集群1.4版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,此版本暂时只支持text2vector、canopy算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-12-02

flex struts2文件上传

flex struts2 实现单文件、同名文件、多文件上传,具体分析参考blog相关内容。

2013-11-27

flex datagrid doubleclick 实例

flex datagrid 的doubleclick实例,选择一个行的数据,获得选择的数据其做一些其他操作,具体分析参考相关博客:http://blog.csdn.net/fansy1990

2013-11-22

flex dispatchEvent 实例工程

解压后,有两个flex工程:FlexServer1.1和FlexClient1.1,其中server是java的web工程,用于tomcat部署;client是flashBuilder的工程,主要是显示页面。具体原理参考相应blog。

2013-11-19

web 工程调用hadoop集群1.3

web 工程调用hadoop集群1.3版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,暂时只支持text2vector算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-11-17

flex 调用java

Flex通过RemoteObject调用java实例:flex传入参数以及接收java返回结果。 通过mysql数据库的分页来展现flex调用java的实例。工程一共有两个:一个是java web端的,一个是flex工程。详情参考对应博客。

2013-11-12

svd mahout算法

svd算法的工具类,直接调用出结果,调用及设置方式参考http://blog.csdn.net/fansy1990 <mahout源码分析之DistributedLanczosSolver(七)>

2013-10-31

读取HDFS序列化文件解析key、value可视化输出

ReadArbiKV是读取任务序列文件到一个map变量里面,可以启动调试模式进行变量查看; ReadAndWritePatterns是读取序列文件,并解析其key和value,然后可视化输出,所谓可视化输出是指不是乱码的输出,具体可以参考http://blog.csdn.net/fansy1990中《hadoop解析序列文件并可视化输出》

2013-10-25

bazel-0.5.4

bazel-0.5.4-dist.zip 下载,原官网下载有时会下载不了,可以在这个地方下载。

2017-11-13

TensorFlow1.3.0 on centos6.5

TensorFlow1.3.0 on centos6.5 ,编译的TensorFlow1.3.0代码,参考博客

2017-10-28

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

Oozie Spark on YARN requirement failed 所需jar包:http://blog.csdn.net/fansy1990/article/details/53856608

2016-12-24

冠字号查询系统数据

基于HBase冠字号查询系统、数据,参考https://github.com/fansy1990/ssh_v3/releases

2016-06-04

hdp一键部署脚本

hdp一键部署脚本,打开one_key.sh参考HELP,修改hosts文件运行即可。具体参考lz博客《HDP一键配置》

2015-05-25

storm实时单词计数

K天熟悉Apache Storm (三)的示例代码,实时单词计数应用场景

2015-03-27

hotspot关联规则

hotspot关联规则的Java实现,参考weka的相关源码,可用于离散型和连续型数据处理,分析过程参考《HotSpot关联规则算法(2)-- 挖掘连续型和离散型数据》

2015-03-14

hotspot算法源码

HotSpot算法源码,参考weka上面的实现编写,目前只能处理离散型数据,具体参考博客《HotSpot关联规则算法(1)-- 挖掘离散型数据》

2015-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除