Hadoop
文章平均质量分 71
生活不只*眼前的苟且
这个作者很懒,什么都没留下…
展开
-
Hadoop系列之FieldSelectionMapReduce用法
Hadoop的工具类org.apache.hadoop.mapred.lib.FieldSelectionMapReduce帮助用户高效处理文本数据, 就像unix中的“cut”工具。工具类中的map函数把输入的key/value对看作字段的列表。 用户可以指定字段的分隔符(默认是tab), 可以选择字段列表中任意一段(由列表中一个或多个字段组成)作为map输出的key或者value。 同样,工具原创 2017-03-08 11:45:37 · 603 阅读 · 0 评论 -
Hadoop系列之Aggregate用法
1. aggregate简介aggregate是Hadoop提供的一个软件包,其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application using Map/Reduce model, the developer needs to implement Map and Reduce functions (an转载 2017-03-08 11:43:36 · 1035 阅读 · 0 评论 -
Hadoop系列之DistributedCache用法
DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点。本文将介绍Di转载 2017-03-08 10:43:58 · 393 阅读 · 0 评论 -
Hadoop系列之OutputCollector
该接口的代码如下public interface OutputCollector { void collect(K var1, V var2) throws IOException;}OutputCollector 由 Hadoop 框架提供, 负责收集 Mapper 和 Reducer 的输出数据,实现reduce 函数时,只需要简单地将其输出的 对往 OutputColle原创 2017-03-07 18:50:00 · 3993 阅读 · 1 评论 -
Hadoop系列之InputFormat,OutputFormat用法
首先看下表该接口的代码public interface InputFormat { InputSplit[] getSplits(JobConf var1, int var2) throws IOException; RecordReader getRecordReader(InputSplit var1, JobConf var2, Reporter var3) throw原创 2017-03-07 18:20:31 · 1510 阅读 · 0 评论 -
Hadoop系列之ToolRunner与GenericOptionsParser用法
首先给一个ToolRunner类的实例package hadoop.study;/** * Created by denglinjie on 2017/3/7. */import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Config原创 2017-03-07 17:37:19 · 2076 阅读 · 0 评论 -
Hadoop系列之Reporter,Partitioner,JobConf, JobClient
Reporter用于报告进度,设定应用级别的状态消息,更新Counters(计数器),或者仅是表明自己运行正常例如如下代码public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException { String line =原创 2017-03-07 18:57:26 · 1226 阅读 · 0 评论 -
我是如何解决jobtracker.info could only be replicated to 0 nodes, instead of 1这个问题的
我按照慕课网上的教程来学习搭建hadoop-1.2.1环境,可是在start-all.sh这步的时候一直通不过,命令行报如下错误[@soguo /home/denglinjie/hadoop]# start-all.sh Warning: $HADOOP_HOME is deprecated.starting namenode, logging to /home/denglinjie/h原创 2017-03-03 11:03:45 · 754 阅读 · 0 评论 -
python编写hadoop代码
这是一个只有mapper的任务代码:主要有两个文件,一个是shell脚本文件,主要是执行hadoop命令,一个是用python编写的mapper脚本文件首先看下shell脚本文件,#cat get_lemma_fenci.sh#/bin/bash. /etc/profileif [ -f ~/.bash_profile ]then . ~/.bash_pro原创 2017-08-25 12:08:38 · 1317 阅读 · 0 评论