Bigdatda-MapReduce
文章平均质量分 87
礼彬fly
这个作者很懒,什么都没留下…
展开
-
MapReduce练习(二)
MapReduce练习(二) 1、启动hadoop-1.2.1 集群:Master:Slave: 2、任务要求:有一批电话通信清单,记录了用户A拨打给用户B的记录做一个倒排索引,记录拨打给用户B所有用户A 3、要处理的数据传到hdfs上: 4、MapReduce代码:导入的包: 记错行数:: Map方法:原创 2015-02-08 23:37:05 · 1077 阅读 · 0 评论 -
MapReduce优化
MapReduce优化相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”。同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含六个方面的内容。1. 任务调度转载 2015-06-01 19:59:49 · 1082 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort
关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.setSortCompara转载 2015-07-02 18:27:14 · 579 阅读 · 0 评论 -
hadoop MapReduce - 从作业、任务(task)、管理员角度调优
1.Combiner的作用是什么?2.作业级别参数如何调优?3.任务及管理员级别有哪些可以调优?Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的转载 2015-07-04 20:15:59 · 1227 阅读 · 0 评论 -
1-1、Partitioner 简介
1-1、Partitioner 简介 一、Partitioner简介 Partitioner的作用是对Mapper产生的中间结果进行分片,以便将同一个分组的数据交给同一个Reducer处理,它直接影响Reducer阶段的复杂均衡。 Partitioner只提供了一个方法: getPartition(Text key,Text valu原创 2015-08-23 16:43:16 · 3362 阅读 · 0 评论 -
1-2、自定义Partitioner代码
1-2、自定义Partitioner代码1、输入数据:hadoop|hellospark|whichspark|whostorm|howeverhadoop|codespark|water[HDFS上:2、代码:package 自定义分区;im原创 2015-08-23 16:47:08 · 983 阅读 · 0 评论 -
2-1、二次排序代码
1、输入数据:[hadoop@hadoop ~]$ hdfs dfs -text /user/hadoop/secondarysort.txt3 55 897 635 563 93 17 267 457 45 185 237 6原创 2015-08-30 18:12:08 · 750 阅读 · 0 评论 -
3-1、topk代码
1、生成随机数代码:2、生成部分数据如下所示:[hadoop@hadoop ~]$ tail -10 top_k.txt1628786786639425960875245389881409920206832792706[hadoop@hadoop ~]$3、代码:package test;import原创 2015-08-30 21:29:57 · 871 阅读 · 0 评论 -
4-1、自定义InputFormat 类代码
在编写MapReduce的时候,自带的输入格式有时候满足不了我们的需求,这个时候就要自己来定制InputFprmat、InputSplit和RecordReader。MapReduce自带的输入类型都是基于HDFS的,这个例子的功能是,不从HDFS上面读取输入内容,在内存中随机生成100个(0-1)float型的小数,然后求这100个小数的最大值。1、类 FindMaxValueI原创 2015-09-06 09:50:16 · 1577 阅读 · 0 评论 -
7-1、Distributed分布式缓存代码
分布式缓存数据:hdfs dfs -text libin/input/distributedDemo.txthadoophivehbasekafkasparkstomepigsqoopflumeelasticsearchdocker输入数据:hdfs dfs -text libin/input/distributedinput.txthive|safsd原创 2015-10-19 09:34:34 · 1193 阅读 · 0 评论 -
6-1、全排序 --(按字典顺序)BinaryComparable
6-1、全排序 --(按字典顺序)BinaryComparable类SamplerInputFormat:package mapreduce.baozi;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import转载 2015-10-08 16:36:44 · 1333 阅读 · 0 评论 -
Hadoop的map获取当前spilt文件名
map函数: protected void map(LongWritable key, Text value, Mapper.Context context) throws IOException, InterruptedException { FileSplit fileSplit = (FileSplit) context.getInputSplit(); //获得当前原创 2015-10-30 17:39:41 · 2413 阅读 · 0 评论 -
MultipleInputs用法
MultipleInputs处理多输入源,本例子包括 windows上的mysql数据库数据和hdfs上的文本数据。mysql数据:hdfs数据:[root@baolibin ~]# hadoop fs -text /input/heheWarning: $HADOOP_HOME is deprecated.hello youhello mehel原创 2015-04-16 16:07:40 · 3108 阅读 · 0 评论 -
自定义计数器
代码:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org原创 2015-04-16 14:10:10 · 937 阅读 · 0 评论 -
MapReduce练习(三)
MapReduce练习(三) 这个很简单,数据去重。 1、数据: 2、要求:数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。 3、代码:上: 中: 下:4、结果: 附代码:import java.io.IOException;i原创 2015-02-09 16:37:16 · 1093 阅读 · 0 评论 -
MapReduce编程8步骤
MapReduce编程8步骤◆执行步骤: 1. map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2 写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。1.3 对输出的key、value进行分区。1.4 对不同分区的数据,按照key进行转载 2015-02-22 20:45:28 · 1511 阅读 · 0 评论 -
windows上运行mapreduce
windows上运行mapreduce 环境搭建参考这篇文章:http://blog.csdn.net/baolibin528/article/details/43868477 代码:packagemapreduce;importjava.net.URI; importorg.apache.hadoop.conf.Configuration;importorg.apac原创 2015-02-19 01:17:33 · 1744 阅读 · 0 评论 -
Hadoop自定义数据类型编程练习
Hadoop自定义数据类型编程练习 代码:package zidongyi; import java.io.DataInput;import java.io.DataOutput;import java.io.IOException; importorg.apache.hadoop.conf.Configuration;import org.apache.had原创 2015-02-22 20:50:36 · 932 阅读 · 0 评论 -
【Hadoop基础教程】9、Hadoop之倒排索引
开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、hadoop-1.2.11、倒排索引倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文转载 2015-03-10 21:23:24 · 1332 阅读 · 0 评论 -
mapreduce编程自定义排序
输入数据:[root@baolibin hadoop]# hadoop fs -text /input/hahaWarning: $HADOOP_HOME is deprecated.2 13 21 3代码:package hadoop_2_6_0;import java.io.DataInput;import ja原创 2015-04-14 20:08:16 · 963 阅读 · 0 评论 -
DBInputFormat用法
输入的数据库数据:代码:package hadoop_2_6_0;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import原创 2015-04-14 21:10:56 · 1233 阅读 · 0 评论 -
SequenceFileInputFormat用法
SequenceFileInputFormat只能处理SequenceFile类型的文件。代码:package inputformat;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.原创 2015-04-16 14:26:12 · 5526 阅读 · 0 评论 -
CombineTextInputFormat用法
输入数据:代码:package inputformat;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Lo原创 2015-04-16 15:29:04 · 5387 阅读 · 1 评论 -
NLineInputFormat用法
输入的数据:[root@i-love-you hadoop]# bin/hdfs dfs -text /input/hehehadoop hellohadoop mehadoop java代码:package inputformat;import java.io.IOException;import org.apache.hadoop.conf.Configur原创 2015-04-16 15:09:20 · 1812 阅读 · 1 评论 -
Hadoop的多目录输出
原文地址:http://my.oschina.net/leejun2005/blog/94706package mapreduce.baozi;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;impo原创 2015-10-08 09:49:17 · 1625 阅读 · 0 评论