MapReduce功能实现
文章平均质量分 94
本专栏将详细介绍hadoop的mapreduce的一些功能并附上代码,希望能给大家带来帮助。
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
MapReduce功能实现一---Hbase和Hdfs之间数据相互转换
一、从Hbase表1中读取数据再把统计结果存到表2在Hbase中建立相应的表1:create 'hello','cf'put 'hello','1','cf:hui','hello world'put 'hello','2','cf:hui','hello hadoop'put 'hello','3','cf:hui','hello hive'put 'hello','4','原创 2017-07-25 10:36:32 · 16206 阅读 · 3 评论 -
MapReduce功能实现二---排序
一、前N名 TOP-N情况1:创建文件并上传到HDFS中[hadoop@h71 q1]$ vi test.txta 1000b 2000c 90000d 88e 999999f 9998g 13223注意:这里的分隔符是/t(Tab键)而不是空格[hadoop@h71 q1]$ hadoop fs -put test.txt /input原创 2017-07-25 17:56:53 · 4528 阅读 · 0 评论 -
MapReduce功能实现三---Top N
MapReduce功能实现系列:MapReduce功能实现一---Hbase和Hdfs之间数据相互转换MapReduce功能实现二---排序MapReduce功能实现三---Top NMapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)MapReduce功能实现五---去重(Distinct)、计数(Count)MapReduce功能实现六---最...原创 2017-08-29 13:45:56 · 7664 阅读 · 1 评论 -
MapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)
方法一:在Hbase中建立相应的表1:create 'hello','cf'put 'hello','1','cf:hui','hello world'put 'hello','2','cf:hui','hello hadoop'put 'hello','3','cf:hui','hello hive'put 'hello','4','cf:hui','hello hadoop原创 2017-07-25 18:05:55 · 4831 阅读 · 0 评论 -
MapReduce功能实现五---去重(Distinct)、计数(Count)
一、去重类似于db中的select distinct(x) from table , 去重处理甚至比WordCount还要简单[hadoop@h71 q1]$ vi hello.txthello worldhello hadoophello hivehello hadoophello worldhello world[hadoop@h71 q1]$ hadoop fs -原创 2017-07-26 09:27:15 · 13341 阅读 · 0 评论 -
MapReduce功能实现六---最大值(Max)、求和(Sum)、平均值(Avg)
一、最大值(Max)情况1:[hadoop@h71 q1]$ vi ql.txtaa 11122 555[hadoop@h71 q1]$ hadoop fs -put ql.txt /inputjava代码:import java.io.IOException;import org.apache.hadoop.conf.Configuration; import原创 2017-07-27 09:17:20 · 17067 阅读 · 2 评论 -
MapReduce功能实现七---小综合(多个job串行处理计算平均值)
复杂的MapReduce处理中,往往需要将复杂的处理过程,分解成多个简单的Job来执行,第1个Job的输出做为第2个Job的输入,相互之间有一定依赖关系。下面以求平均值为例1. 求Sum2. 求Count3. 计算平均数[hadoop@h71 q1]$ vi ceshi.txt28832353027[hadoop@h71 q1原创 2017-07-28 11:21:22 · 2112 阅读 · 0 评论 -
MapReduce功能实现八---分区(Partition)
[hadoop@h71 q1]$ vi aa.txt aa 1 2bb 2 22cc 11dd 1ee 99 99 999ff 12 23 123注意:这里的分隔符是/t(Tab键)而不是空格[hadoop@h71 q1]$ hadoop fs -put aa.txt /inputjava代码:import org.apache.hadoop.con原创 2017-08-02 09:14:14 · 3937 阅读 · 1 评论 -
MapReduce功能实现九---Pv、Uv
前言:这里给出的是hadoop1版本的代码,如果你把前面的知识都掌握了的话,我相信你自己也可以写出hadoop2版本的代码来。一、Pv[hadoop@h71 q1]$ vi ip.txt192.168.1.1192.168.2.2192.168.3.3192.168.2.21.1.1.1[hadoop@h71 q1]$ hadoop fs -put ip.t原创 2017-08-02 09:22:17 · 3347 阅读 · 0 评论 -
MapReduce功能实现十---倒排索引(Inverted Index)
前言:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)1.模拟数据:[hadoop@h71 q1]$ vi file1.txtmapr原创 2017-08-02 10:59:30 · 11941 阅读 · 9 评论 -
MapReduce功能实现十一---join
前言:对两份数据data1和data2进行关键词连接是一个很通用的问题,在关系型数据库中Join是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要从不同的数据源中获取数据。不同于传统的单机模式,在分布式存储下采用MapReduce编程模型,也有相应的处理措施和优化方法。1.模拟数据:[hadoop@h71 q1]$原创 2017-08-02 11:04:29 · 2028 阅读 · 2 评论