2016年08月_柱子89

12月 11月 10月 09月 08月 07月 06月 05月

转载 Mahout0.9版本第八周作业

书面作业那边修改不了，就发个帖子把作业做了吧我用的是Hadoop2.4.0+Mahout0.9+Pig0.13.0，所以课件中的方法都不适用了，要全部重新搞首先是用sport构造bayes和cbayes分类器，这步可以直接参照examples/binclassify-20newsgroups.sh通过Mahout脚本实现##1.将分类文章序列化mahout se

2016-08-05 19:14:35 415

转载 httpclient使用详解（爬虫）

一、简介HttpClient是Apache Jakarta Common下的子项目，用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中，比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址: http

2016-08-05 19:08:33 555

转载分析用户的访问偏好

本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好，项目流程如下图所示：数据采集项目流程中，提取用户访问页面的URL和URL对应的正文内容，由本人在公司参与一起开发的爬虫系统爬取相应门户网站（新浪）上的数据。爬虫核心代码见我的另一篇文章：httpclient使用详解（爬虫）爬虫的框架使用的是java多线程开发，由于数据时效性不是很强，

2016-08-05 19:01:25 787

转载 Mahout 常用相似度度量（笔记）

出自：http://now51jq.blog.51cto.com/3474143/1539515Mahout 基于推荐系统，分类，聚类算法等经常用到的相似度度量：PearsonCorrelationSimilarity 皮尔森距离EuclideanDistanceSimilarity 欧几里德距离CosineMeasureS

2016-08-05 18:55:13 288

转载利用贝叶斯分类器进行文本挖掘---笔记

原文地址：http://now51jq.blog.51cto.com/3474143/15474341. 调用庖丁分词器，分词grid@server01:~/data$ hadoop jar mrtokenize.jar tokenize.TokenizeDriver /home/grid/data/lesson8 /home/grid/output/sportwords

2016-08-05 18:40:35 804

转载 Hadoop CombineFileInputFormat原理说明

mapreduce中,一个job的map个数, 每个map处理的数据量是如何决定的呢? 另外每个map又是如何读取输入文件的内容呢? 用户是否可以自己决定如何输入, 决定map个数呢? 这篇文章将详细讲述hadoop中各种InputFormat的功能和如何编写自定义的InputFormat. 简介: mapreduce作业会根据输入目录产生多个map任务, 通过多个map任务并行执行来提高

2016-08-04 15:56:44 672

原创庖丁常见错误处理

1、Caused by: java.lang.VerifyError: class net.paoding.analysis.analyzer.PaodingAnalyzerBean overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader Lorg/apache/lucene/analysis/TokenStr

2016-08-04 15:14:17 559

数据结构中图的拓扑排序

数据结构中图的拓扑排序，采用邻接矩阵，没有采用栈的操作

2011-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人