Hadoop
文章平均质量分 93
Hadoop学习
学习学习学习!!!
Java 大数据
展开
-
day03_MR2数据倾斜、内部处理细节、分布式缓存、combiner,序列化
数据倾斜(重要)由于默认的分区规则,哈希值取模后可能会导致各分区的数据量相差过大,造成单个机器的负载过大,这就是数据倾斜。例如a a a b c c c d —>默认按照hash%2=区号规则分区:[aaa ccc] [b d]。解决方案:增加reduce的个数,但不能从根本上解决重写分区规则打散数据,把每个字母后面加上一个随机数后再取余,保证了数据均匀,但是需要再来一个机器汇总结果。下面使用java模拟第三种方式需求:F:\development\mrdata\skew\in.原创 2021-07-12 16:53:17 · 125 阅读 · 0 评论 -
day02_mapreduce编写,运行原理,案例
来源:doit教育1 MR设计思想任务如何合理的分配?一般来说为了方便管理,DN机器内存大部分是一致的,所以划分任务的时候按照大小划分,DN收到任务后,并行地运算数据。数据运算结束后,需要将数据发送到存储数据的机器上,可能需要多个机器来存储数据,为了保证数据的分布式存储(每台机器上对同一个数据要完整的存储例如:a只存储在DN1机器,不是在DN1和ND2上),引入了分区器。分区器对map阶段处理的数据得hash值%2 ,根据得到0或者1的结果,把相应的数据存储到DN机器上。这个存储的过程就是red原创 2021-07-12 16:18:34 · 101 阅读 · 0 评论 -
day01_hdfs简介、安装、hdfs读写,Java api,简单的原理
资源来自:doit教育1 大数据概述1.1 简介 随着互联网的不断发展,世界上产生的数据正在以指数级增长,已经增长到了TB,PB甚至EB级别,比如百度搜索多易教育,就能搜索到近亿的词条,如果服务器使用常规手段进行数据的搜索,那么如此庞大的数据量会消耗大量的时间,给用户带来不好的使用体验。在这样的需求背景下,大数据应运而生。 大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。原创 2021-07-12 16:15:04 · 153 阅读 · 0 评论