- 博客(7)
- 资源 (1)
- 收藏
- 关注
转载 Mahout0.9版本第八周作业
书面作业那边修改不了,就发个帖子把作业做了吧我用的是Hadoop2.4.0+Mahout0.9+Pig0.13.0,所以课件中的方法都不适用了,要全部重新搞首先是用sport构造bayes和cbayes分类器,这步可以直接参照examples/binclassify-20newsgroups.sh通过Mahout脚本实现##1.将分类文章序列化mahout se
2016-08-05 19:14:35 415
转载 httpclient使用详解(爬虫)
一、简介HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址: http
2016-08-05 19:08:33 555
转载 分析用户的访问偏好
本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集 项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫) 爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,
2016-08-05 19:01:25 787
转载 Mahout 常用相似度度量(笔记)
出自:http://now51jq.blog.51cto.com/3474143/1539515Mahout 基于推荐系统,分类,聚类算法 等经常用到的相似度度量:PearsonCorrelationSimilarity 皮尔森距离EuclideanDistanceSimilarity 欧几里德距离CosineMeasureS
2016-08-05 18:55:13 288
转载 利用贝叶斯分类器进行文本挖掘---笔记
原文地址:http://now51jq.blog.51cto.com/3474143/15474341. 调用庖丁分词器,分词grid@server01:~/data$ hadoop jar mrtokenize.jar tokenize.TokenizeDriver /home/grid/data/lesson8 /home/grid/output/sportwords
2016-08-05 18:40:35 804
转载 Hadoop CombineFileInputFormat原理说明
mapreduce中,一个job的map个数, 每个map处理的数据量是如何决定的呢? 另外每个map又是如何读取输入文件的内容呢? 用户是否可以自己决定如何输入, 决定map个数呢? 这篇文章将详细讲述hadoop中各种InputFormat的功能和如何编写自定义的InputFormat. 简介: mapreduce作业会根据输入目录产生多个map任务, 通过多个map任务并行执行来提高
2016-08-04 15:56:44 672
原创 庖丁常见错误处理
1、Caused by: java.lang.VerifyError: class net.paoding.analysis.analyzer.PaodingAnalyzerBean overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader Lorg/apache/lucene/analysis/TokenStr
2016-08-04 15:14:17 559
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人