自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

转载 Mahout0.9版本第八周作业

书面作业那边修改不了,就发个帖子把作业做了吧我用的是Hadoop2.4.0+Mahout0.9+Pig0.13.0,所以课件中的方法都不适用了,要全部重新搞首先是用sport构造bayes和cbayes分类器,这步可以直接参照examples/binclassify-20newsgroups.sh通过Mahout脚本实现##1.将分类文章序列化mahout se

2016-08-05 19:14:35 405

转载 httpclient使用详解(爬虫)

一、简介HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址: http

2016-08-05 19:08:33 546

转载 分析用户的访问偏好

本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集    项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫)    爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,

2016-08-05 19:01:25 765

转载 Mahout 常用相似度度量(笔记)

出自:http://now51jq.blog.51cto.com/3474143/1539515Mahout 基于推荐系统,分类,聚类算法 等经常用到的相似度度量:PearsonCorrelationSimilarity 皮尔森距离EuclideanDistanceSimilarity 欧几里德距离CosineMeasureS

2016-08-05 18:55:13 279

转载 利用贝叶斯分类器进行文本挖掘---笔记

原文地址:http://now51jq.blog.51cto.com/3474143/15474341. 调用庖丁分词器,分词grid@server01:~/data$ hadoop jar mrtokenize.jar tokenize.TokenizeDriver /home/grid/data/lesson8 /home/grid/output/sportwords

2016-08-05 18:40:35 796

转载 Hadoop CombineFileInputFormat原理说明

mapreduce中,一个job的map个数, 每个map处理的数据量是如何决定的呢? 另外每个map又是如何读取输入文件的内容呢? 用户是否可以自己决定如何输入, 决定map个数呢? 这篇文章将详细讲述hadoop中各种InputFormat的功能和如何编写自定义的InputFormat. 简介: mapreduce作业会根据输入目录产生多个map任务, 通过多个map任务并行执行来提高

2016-08-04 15:56:44 663

原创 庖丁常见错误处理

1、Caused by: java.lang.VerifyError: class net.paoding.analysis.analyzer.PaodingAnalyzerBean overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader Lorg/apache/lucene/analysis/TokenStr

2016-08-04 15:14:17 540

数据结构中图的拓扑排序

数据结构中图的拓扑排序,采用邻接矩阵,没有采用栈的操作

2011-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除