自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fansy1990的专栏

一日一积累

  • 博客(11)
  • 资源 (60)
  • 收藏
  • 关注

原创 hadoop编程小技巧(9)---二次排序(值排序)

代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5b,7c,2c,9a,3a,1b,10b,3c,1如果使用一般的MR的话,其输出可能是这样的:a 1a 3a 5b 3b 10b 7c 1c 9c 2从数据中可以看到其键是排序的,但

2014-07-30 16:45:59 4837

原创 hadoop编程小技巧(8)---Unit Testing (单元测试)

所需环境:Hadoop相关jar包(下载官网发行版即可);下载junit包(最新为好);下载mockito包;下载mrunit包;下载powermock-mockito包;相关包截图如下:应用场景:在进行Hadoop的一般MR编程时,需要验证我们的业务逻辑,或者说是验证数据流的时候可以使用此环境,这个环境不要求真实的云平台,只是针对算法或者代码逻辑进行验证,方便调试代码。实例:Mapper:pac

2014-07-29 13:31:16 3477

原创 hadoop编程小技巧(7)---自定义输出文件格式以及输出到不同目录

代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat  常用的父类;2)TextOutputFormat 默认输出字符串输出格式;3)SequenceFileOutputFormat 序列化文件输出;4)MultipleOutputs 可以把输出

2014-07-24 13:28:15 6456 1

原创 hadoop编程小技巧(6)---处理大量小数据文件CombineFileInputFormat应用

代码测试环境:Hadoop2.4应用场景:当需要处理很多小数据文件的时候,可以应用此技巧来达到高效处理数据的目的。原理:应用CombineFileInputFormat,可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper,当一个Mapper处理的数据比较小的时候,其效率较低。而一般使用Hadoop处理数据时,即默认方式,会把一个输入数据文件当做一个分片,这样当输入文件较小

2014-07-23 11:09:02 3570

原创 hadoop编程小技巧(5)---自定义输入文件格式类InputFormat

Hadoop代码测试环境:Hadoop2.4应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类。Hadoop内置的输入文件格式类有:1)FileInputFormat这个是基本的父类,我们自定义就直接使用它作为父类;2)TextInputFormat这个是默认的数据格式类,我们一般编程,如果没有特别指定的话,一般都使用的是这个;key代表当前行数据距离文件开始的距离,

2014-07-22 13:37:33 8534 4

原创 Mahout贝叶斯算法拓展篇3---分类无标签数据

代码测试环境:Hadoop2.4+Mahout1.0前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理。在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理。下面这篇博客就针对这样的数据进行处理。最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载:下载后参考

2014-07-20 14:31:35 4287 7

原创 hadoop编程小技巧(4)---全局key排序类TotalOrderPartitioner

Hadoop代码测试版本:Hadoop2.4原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了。难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入、输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke

2014-07-18 14:05:59 4261 1

原创 hadoop编程小技巧(3)---自定义分区类Partitioner

Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/** Use {@link Object#hashCode()} to partition. */ p

2014-07-17 13:20:17 3240 1

原创 hadoop编程小技巧(2)---计数器Counter

Hadoop代码测试版本:2.4应用场景:在Hadoop编程的时候,有时我们在进行我们算法逻辑的时候想附带了解下数据的一些特性,比如全部数据的记录数有多少,map的输出有多少等等信息(这些是在算法运行完毕后,直接有的),就可以使用计数器Counter。如果是针对很特定的数据的一些统计,比如统计以1开头的所有记录数等等信息,这时就需要自定义Counter。自定义Counter有两种方式,第一种,定义

2014-07-16 17:30:50 2814

原创 hadoop编程小技巧(1)---map端聚合

测试hadoop版本:2.4 Map端聚合的应用场景:当我们只关心所有数据中的部分数据时,并且数据可以放入内存中。使用的好处:可以大大减小网络数据的传输量,提高效率;一般编程思路:在Mapper的map函数中读入所有数据,然后添加到一个List(队列)中,然后在cleanup函数中对list进行处理,输出我们关系的少量数据。实例:在map函数中使用空格分隔每行数据,然后把每个单词添加到一个堆栈中,

2014-07-16 17:03:21 4366

原创 Mahout算法调用展示平台2.1

软件版本:windows7: Tomcat7、JDK7、Spring4.0.2、Struts2.3、Hibernate4.3、myeclipse10.0、easyui;Linux(centos6.5):Hadoop2.4、Mahout1.0、JDK7;使用Web工程调用Mahout的相关算法,提供监控,查看任务的执行状态。自建Web项目,项目首页如下:1. 准备 项目可以在http://downl

2014-07-06 18:44:23 4740 3

Mahout案例实战 约会推荐

Mahout实战案例-约会推荐系统,详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例;

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法:参考Mahout FP算法相关相关源码。 只是单机版的实现,并没有MapReduce的代码,可以参考: http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》(http://blog.csdn.net/fansy1990/article/details/39692741) (1)修改Configuration目录中的db.properties中的数据库配置; (2)从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据,解压后可以看到gender.dat 和ratings.dat文件; (3)启动工程,自动生成相关表; (4)在数据库中运行sql目录下sql,导入相关数据;

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具,具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo,前台使用easyUI控件、jQuery技术,后台使用Spring、Struts、Hibernate技术。具体运行参考:http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包(不包含Hadoop环境jar包),适合Hadoop2,具体实例参考《hadoop编程小技巧(8)---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据,具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包,支持hadoop2,此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包,支持hadoop2(此为第一部分)

2014-04-09

mahout0.9源码(支持hadoop2)

mahout0.9的源码,支持hadoop2,需要自行使用mvn编译。mvn编译使用命令: mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,(使用hadoop2)

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar,具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar,可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方: 1. 打开mysql,增加blog数据库;修改src下面的jdbc.properties文件的用户名和密码; 2. 修改blog.xml(和Readme.txt同目录)的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面; 3. 修改applicationContext.xml文件中的自动生成表的配置(hibernate.hbm2ddl.auto),第一次启动为create,后面改为update; 4. 启动服务器,运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息(需要修改UserGenerate.java中云平台相关配置); 版本:Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

web平台调用hadoop集群2.0

web平台调用hadoop集群的升级版,要求所配置的hadoop集群需要把工程下面的所有class文件打包放入hadoop的lib目录下面。具体参考lz的blog介绍。

2014-01-03

hadoop启动时间写入文件

hadoop:1.0.4 修改JobTracker源码,把JobTracker启动时间写入文件/private/jobtracker/starttime (hdfs文件系统); 只需替换hadoop-core-1.0.4.jar文件,然后重启系统集群即可,启动后就可以在hdfs文件系统看到/private/jobtracker/starttime中有的启动时间。

2013-12-20

监控hadoop任务信息

hadoop:1.0.4,struct:2.3。 说明:hadoop云平台任务监控信息页面,仿效50030界面,提前获得10个未运行任务的id,然后显示这些id的信息;具体参考最新bolg。

2013-12-18

web 工程调用hadoop集群1.4

web 工程调用hadoop集群1.4版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,此版本暂时只支持text2vector、canopy算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-12-02

flex struts2文件上传

flex struts2 实现单文件、同名文件、多文件上传,具体分析参考blog相关内容。

2013-11-27

flex datagrid doubleclick 实例

flex datagrid 的doubleclick实例,选择一个行的数据,获得选择的数据其做一些其他操作,具体分析参考相关博客:http://blog.csdn.net/fansy1990

2013-11-22

flex dispatchEvent 实例工程

解压后,有两个flex工程:FlexServer1.1和FlexClient1.1,其中server是java的web工程,用于tomcat部署;client是flashBuilder的工程,主要是显示页面。具体原理参考相应blog。

2013-11-19

web 工程调用hadoop集群1.3

web 工程调用hadoop集群1.3版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,暂时只支持text2vector算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-11-17

flex 调用java

Flex通过RemoteObject调用java实例:flex传入参数以及接收java返回结果。 通过mysql数据库的分页来展现flex调用java的实例。工程一共有两个:一个是java web端的,一个是flex工程。详情参考对应博客。

2013-11-12

svd mahout算法

svd算法的工具类,直接调用出结果,调用及设置方式参考http://blog.csdn.net/fansy1990 <mahout源码分析之DistributedLanczosSolver(七)>

2013-10-31

读取HDFS序列化文件解析key、value可视化输出

ReadArbiKV是读取任务序列文件到一个map变量里面,可以启动调试模式进行变量查看; ReadAndWritePatterns是读取序列文件,并解析其key和value,然后可视化输出,所谓可视化输出是指不是乱码的输出,具体可以参考http://blog.csdn.net/fansy1990中《hadoop解析序列文件并可视化输出》

2013-10-25

bazel-0.5.4

bazel-0.5.4-dist.zip 下载,原官网下载有时会下载不了,可以在这个地方下载。

2017-11-13

TensorFlow1.3.0 on centos6.5

TensorFlow1.3.0 on centos6.5 ,编译的TensorFlow1.3.0代码,参考博客

2017-10-28

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

Oozie Spark on YARN requirement failed 所需jar包:http://blog.csdn.net/fansy1990/article/details/53856608

2016-12-24

冠字号查询系统数据

基于HBase冠字号查询系统、数据,参考https://github.com/fansy1990/ssh_v3/releases

2016-06-04

hdp一键部署脚本

hdp一键部署脚本,打开one_key.sh参考HELP,修改hosts文件运行即可。具体参考lz博客《HDP一键配置》

2015-05-25

storm实时单词计数

K天熟悉Apache Storm (三)的示例代码,实时单词计数应用场景

2015-03-27

hotspot关联规则

hotspot关联规则的Java实现,参考weka的相关源码,可用于离散型和连续型数据处理,分析过程参考《HotSpot关联规则算法(2)-- 挖掘连续型和离散型数据》

2015-03-14

hotspot算法源码

HotSpot算法源码,参考weka上面的实现编写,目前只能处理离散型数据,具体参考博客《HotSpot关联规则算法(1)-- 挖掘离散型数据》

2015-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除