MapReduce学习笔记
MapReduce学习笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
MapReduce学习笔记(1)——字符统计
1 MapReduce 介绍Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 使用 MapReduce 原因海量数据在单机上处理因为硬件资源限制,无法胜任;而一旦将单机版程序扩展到集...原创 2018-07-31 10:19:43 · 709 阅读 · 0 评论 -
MapReduce学习笔记(3)—— mapreduce程序(2)集群模式
1 集群模式将mapreduce程序提交给yarn集群resourcemanager,分发到很多的节点上并发执行;处理的数据和输出结果应该位于hdfs文件系统;提交集群的实现步骤:(1)将程序打成JAR包,然后在集群的任意一个节点上用hadoop命令启动;(2)直接在linux的eclipse中运行main方法(项目中要带参数:mapreduce.framework.name=yarn以...原创 2018-08-08 17:00:52 · 647 阅读 · 0 评论 -
MapReduce学习笔记(3)—— mapreduce程序本地运行模式
1 本地运行模式mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上实现本地运行?不要带集群的配置文件(本质是mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数)本地模式非常便于进行业务逻辑的d...原创 2018-08-07 21:52:39 · 5411 阅读 · 1 评论 -
MapReduce学习笔记(2)—— 流量统计(3)
1 在流量统计(1)的基础上将统计结果按照总流量倒序排序package flowsumsort;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import...原创 2018-08-07 20:52:34 · 322 阅读 · 0 评论 -
MapReduce学习笔记(2)—— 流量统计(2)
1原创 2018-08-07 16:50:58 · 325 阅读 · 0 评论 -
MapReduce学习笔记(2)—— 流量统计(1)
1 待统计的文本flow.log1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197....原创 2018-08-02 17:33:17 · 438 阅读 · 0 评论 -
MapReduce学习笔记(8)—— 网站日志处理
1 待处理的数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/2013:06:49:23 +0...原创 2018-08-10 10:30:09 · 614 阅读 · 0 评论 -
MapReduce学习笔记(7)—— 寻找共同好友
1 数据冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)。求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F...原创 2018-08-10 10:24:05 · 434 阅读 · 0 评论 -
MapReduce学习笔记(6)——倒排索引
1 待统计的文本数据2 源码package InverseIndex;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWri...原创 2018-08-09 16:58:51 · 249 阅读 · 0 评论 -
MapReduce学习笔记(5)—— Map 端 join 实现
1 订单、产品信息表原创 2018-08-09 15:18:39 · 353 阅读 · 0 评论 -
MapReduce学习笔记(4)—— 案例:订单、商品信息合并
1原创 2018-08-08 20:35:33 · 605 阅读 · 0 评论