hadoop
西二旗卷饼王
这个作者很懒,什么都没留下…
展开
-
mapreduce原理
Q1: reduce的方式是将一个类型的key,送给同一个节点。比如说,把good都送给第一个节点。till送给第二个节点。那么如果做到这一点呢? 答:使用hash表的方式,一个key,放在hash表里面,就会产生一个为一个code(java 里面的数据结构是 hashcode), 然后再给它取余数。 比如机器有四个节点,做reduce,那么就取余4,这样计算的任务就分给四台机器。这个就是shuffl机制。(shuffl就是洗牌的意思)(这个算法其实就是哈希取模的算法) Q2: m...原创 2020-12-23 18:05:10 · 113 阅读 · 0 评论 -
pig和hive的区别
Pig查询例子: Sql语句:select deptno,max(sal) from emp group by deptno; Pig Latin语句:emp1 = group emp by deptno; emp2 = foreach emp1 generate group,MAX(emp.sal) dump emp2; Pig赋予开发人员更多的灵活性,并允许开发简洁的脚本用于转换数据流,以便嵌入到较大的应用程序。 Pig相比Hive相对轻量,它主要的优势:相比于直接使用Hadoop Java原创 2020-09-18 17:19:56 · 365 阅读 · 0 评论 -
YARN基本框架介绍&Mapreduce的内存参数理解
YARN是一个资源管理、任务调度的框架,主要包含三大模块: ResourceManager(RM):负责所有资源的监控、分配和管理 NodeManager(NM):负责每一个节点的维护 ApplicationMaster(AM):负责每一个具体应用程序的调度和协调 对于所有的applications,RM拥有绝对的控制权和对资源的分配权。 每个AM会和RM协商资源,同时和NodeMana...原创 2019-12-08 15:59:56 · 259 阅读 · 0 评论