Hadoop项目实战
文章平均质量分 51
柱子89
在读学生
展开
-
hadoop常见错误的原因
1、Not implemented by the S3FileSystem FileSystem implementation Hadoop Jar原因:已经有hadoop的环境,删除代码中hadoop的有关jar包2、Found interface org.apache.hadoop.mapreduce.JobContext, but class was ex原创 2016-07-25 11:24:24 · 410 阅读 · 0 评论 -
httpclient使用详解(爬虫)
一、简介HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址: http转载 2016-08-05 19:08:33 · 555 阅读 · 0 评论 -
Mahout0.9版本第八周作业
书面作业那边修改不了,就发个帖子把作业做了吧我用的是Hadoop2.4.0+Mahout0.9+Pig0.13.0,所以课件中的方法都不适用了,要全部重新搞首先是用sport构造bayes和cbayes分类器,这步可以直接参照examples/binclassify-20newsgroups.sh通过Mahout脚本实现##1.将分类文章序列化mahout se转载 2016-08-05 19:14:35 · 415 阅读 · 0 评论 -
hadoop 配置SSH无密码访问
Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,所以我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动DataName进程,同样原理,DataNode上也能使用原创 2016-09-05 21:39:14 · 465 阅读 · 0 评论 -
Mapreduce程序中的FileInputFormat.addInputPaths和FileInputFormat.addInputPath方法
写MR过程中经常会遇到多个源路径的输入,我们可以在MR程序主函数中通过FileInputFormat.addInputPaths(job, conf.get("input_dir"))方法来实现,在提交脚本中将多个源的路径用“,”分隔,input_dir=$INPUT_FILE_PATH1,$INPUT_FILE_PATH2 这样在执行MR的时候,输入会将多个源路径全部多为map转载 2016-09-22 18:27:07 · 4317 阅读 · 0 评论 -
hadoop 报错Error: java.io.FileNotFoundException: Path is not a file:/xx1/xx2的解决办法
主要原因就是hadoop1.x的FileInputFormat.setInputPaths(job, new Path(input));在hadoop2.x的环境运行导致的,将上述代码用下面两行代码替换即可: FileInputFormat.setInputDirRecursive(job, true); FileInputFormat.addInputPath(job, new Pa原创 2016-09-23 09:03:55 · 6030 阅读 · 1 评论 -
hadoop中System.out.println输出内容的查看
hadoop中System.out.println只有在main方法可以输出到控制台,如果是在map或reduce方法不可以在控制台看到,但是,我们可以在hadoop安装目录下的logs/userlogs/container_****/stdout中看到,如果是在集群环境下,每台机器会有不同的stdout,可以查看完,找到自己希望看到的。原创 2016-09-23 15:15:20 · 3010 阅读 · 0 评论 -
hadoop的WordCount按照value降序排序
package org.apache.hadoop.examples;import java.io.IOException;import java.util.Random;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs原创 2017-03-20 18:29:27 · 3425 阅读 · 1 评论 -
hadoop中输入文件用LongWritable和IntWritable的区别
这里的LongWritable的key是线的偏移量,表示该行在文件中的位置,而不是行号这里的IntWritable的key是行号原创 2017-05-17 17:59:58 · 12155 阅读 · 2 评论 -
利用贝叶斯分类器进行文本挖掘---笔记
原文地址:http://now51jq.blog.51cto.com/3474143/15474341. 调用庖丁分词器,分词grid@server01:~/data$ hadoop jar mrtokenize.jar tokenize.TokenizeDriver /home/grid/data/lesson8 /home/grid/output/sportwords转载 2016-08-05 18:40:35 · 804 阅读 · 0 评论 -
分析用户的访问偏好
本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集 项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫) 爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,转载 2016-08-05 19:01:25 · 787 阅读 · 0 评论 -
Maven构件Hadoop1.x以及Hadoop2.x项目
参看文档http://blog.fens.me/hadoop-maven-eclipse/http://blog.csdn.net/tryhl/article/details/43967441阅读导航1.hadoop1.x的Maven项目构建2.hadoop2.x的Maven项目构建 1 Hadoop1.x的Maven项目构建 怎么转载 2016-07-04 20:51:52 · 293 阅读 · 0 评论 -
在windows下运行Hadoop程序的环境配置
1.需要在eclipse中将hadoop集群的几个xml配置文件放置到一个文件夹中例如:在项目中新建个conf目录放置:core-site.xml、 hdfs-site.xml、 mapred-site.xml、 hbase-site.xml2.需要将需要的jar包导入项目:Build Path->Add external Archives,选择需要的jar包:3.如果项目运行转载 2016-07-06 19:17:21 · 527 阅读 · 0 评论 -
实战第4周作业-包括第二题的三种实现
数据来源:http://f.dataguru.cn/forum.php?mod=viewthread&tid=224411&page=1#pid738030 这个帖子的数据,100个imsi,没有取前三,直接拿的全部数据。第一题:3.1 导入数据data = load '/input/1222/data_lbs.txt'USING PigStorage('|') A转载 2016-07-18 17:38:55 · 393 阅读 · 0 评论 -
第三周第二题--基于Secondary Sort
思路:基于每个时段内的时长排序,可以理解为,基于key的二次排序,只不过这个key是一个对象,这个对象有两个私有属性,一个是imsi,一个是duration;二次排序就是指,第一次排序imsi,第二次排序duration。闲话少说,上代码key类:ImsiAndDurationpublic class ImsiAndDuration implements转载 2016-07-18 17:44:36 · 390 阅读 · 0 评论 -
Pig简单应用
前期准备:1)测试数据Data的内容为:002|2013-09-10 00-09|中山大学002|2013-09-10 09-17|珠江新城001|2013-09-12 00-09|中山大学001|2013-09-12 09-17|广州信息港003|2013-09-14 00-09|中山大学003|2013-09-14 09-17|广州信息港003|2013-09-原创 2016-07-18 21:33:17 · 411 阅读 · 0 评论 -
win7基于maven和eclipse连接远程Linux服务器的hadoop2.0集群的入门程序
1. 用Maven创建一个标准化的Java项目D:\workspace\java>mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=siat.hadoop -DartifactId=TestHadoop -DpackageName=siat.hadoop原创 2016-07-07 19:43:04 · 553 阅读 · 0 评论 -
Win下Eclipse提交Hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=A
描述:在Windows下使用Eclipse进行Hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%原创 2016-07-07 21:17:04 · 654 阅读 · 0 评论 -
庖丁常见错误处理
1、Caused by: java.lang.VerifyError: class net.paoding.analysis.analyzer.PaodingAnalyzerBean overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader Lorg/apache/lucene/analysis/TokenStr原创 2016-08-04 15:14:17 · 558 阅读 · 0 评论 -
maven连同所有依赖包一起打包成jar包
一、依赖项的处理java application运行时需要查找依赖的第三方jar,如果查找classpath失败,就会报错,可以先用mvn dependency:copy-dependencies -DoutputDirectory=target/lib命令,把依赖的jar包全部导出到target/lib这个目录下 二、利用maven-jar-plugin修改META-INF\原创 2016-07-25 11:05:00 · 4586 阅读 · 0 评论