MapReduce
文章平均质量分 63
longG_It
这个作者很懒,什么都没留下…
展开
-
Hadoop之MapReduce框架的处理过程以及实现集群运行的三种方式
1.在没有使用MapReduce框架之前,想要在集群上分布式运行Key-Value等任务的时候,代码特别冗余,会进行不断地连接、在HDFS上读取数据,特别不方便,所以MapReduce框架就将这些准备工作替我们做了2.结合经典的词频统计代码说一下自己理解的Map(看详细注释) Map就是由框架读出来数据,根据你自己的需求去处理数据,不用管有几个虚拟机给你运行等一系列不必要的代码,只需...原创 2018-08-22 19:33:00 · 921 阅读 · 0 评论 -
MapReduce进阶(2)---------------------数据倾斜的解决。
数据倾斜定义:数据倾斜是大量的相同key被partition分配到一个分区里,其他几个key的数据不是很多task都完成了计算,而其中一个数据量特别大的key却迟迟运行部出结果,造成了’一个人累死,其他人闲死’的情况。数据倾斜的解决 1.前面文章中论述的Combine组件利用map阶段的计算去减轻负担,但是需要注意的地方太多 2.常规有效的解决方案—->打散倾斜的key 整体思...原创 2018-08-27 18:51:05 · 370 阅读 · 0 评论 -
MapReduce进阶(3)------------------Join功能的实现(连接不同的文件),资料在最后
1.用途:有时候需要拼接两个文件的东西,比如用户文件里面有用户信息,还有购物文件里面有用户的购物信息,这时候需要将两个不同的文件拼接起来。 2.思路:首先将文件的内容读出来放到一个容器里面方便使用,其次通过两个文件的相同属性,将同一个用户的不同订单连接起来 3.code:(后面有一种常见的特俗情况,更加节省时间和空间) (1)//JoinBean代码,里面实现了自定义类的序列...原创 2018-08-27 19:11:28 · 220 阅读 · 0 评论 -
MapReduce框架运用及案例分析(详解)---------------资料分享在最后的链接
所有的实例都在本地进行,启动使用上篇文章的第三种方式 1.电影评分的平均值(所用文件rating.json) 原始数据:{“movie”:”1193”,”rate”:”5”,”timeStamp”:”978300760”,”uid”:”1”} 结果显示:1000 3 1002 4 1003 2 1004 2 1005 2 思路:利用JSON转换工具...原创 2018-08-23 19:54:56 · 1199 阅读 · 0 评论 -
mapreduce框架的工作机制(原理深度解析)-----------------------可以结合下面的一篇文章查看根据原理去优化MapReduce代码
1.MrAppMaster管理MapTask、ReduceTask(一直进行监控) 2.重点是起动之后MapTask如何工作 (1)先打包文件,划分成128M,之后序列化到一个叫做job.split的文件 Job客户端划分切片,扫描输入目录中的所有文件,遍历每一个文件,按照128M规格划分范围(每个切片里面有文件的信息),形成一系列对象,再把对象放到ArrayList中,序列化到一...原创 2018-08-24 20:31:52 · 432 阅读 · 0 评论 -
MapReduce进阶--------------------结合代码根据原理去优化它的排序效率(数据在后面链接)
前言: 前面的一篇文章(MapReduce原理)中说明MapReduce在提供方便时内部框架一直都在进行排序、分组、分块,我们在使用的时候将系统的排序改写成自己想要的排序时,在很大计算量的时候就能减少一次排序,会很大提高效率。案例:求不同电影(根据ID分)的评分的前二十条数据 求解思路: 1.未经过改造的 原始数据:{“movie”:”3671”,”rate”:...原创 2018-08-24 21:13:47 · 330 阅读 · 0 评论 -
Mapreduce中Combiner的使用及常见误区(转载大佬的)
问题提出: 众所周知,Hadoop框架使用Mapper将数据处理成一个转载 2018-08-25 20:35:21 · 403 阅读 · 0 评论 -
hbase rowkey 设计(避免热点问题) || 经典案例---------wordount结合HBase使用
热点问题: 热点发生在大量的客户端直接访问集群的一个或极少数节点。访问可以是读,写,或者其他操作。大量访问会使 热点region 所在的单个机器超出自身承受能力,引起性能下降甚至是 region 不可用。这也会影响同一个 regionserver 的其他 regions,由于主机无法服务其他region 的请求。设计良好的数据访问模式以使集群被充分,均衡的利用。这就涉及到了rowkey的...原创 2018-09-06 11:01:45 · 355 阅读 · 0 评论