hadoop
文章平均质量分 50
Tizzzzzz
悟已往之不谏,知来者之可追
展开
-
MapReduce之Writable
一 Writable序列化与反序列化首先我们来解释什么是序列化与反序列化。序列化与反序列化就是在结构化对象与二进制流之间的转换。Hadoop各个节点之间采用RPC进行通信,我们先将结构化对象序列化成二进制流,在远程节点再将二进制流反序列化成结构化对象。这样就完成了节点之间的传输。他的好处无非就是压缩过,使得节点之间带宽占用较少,可以快速读写,高扩展性,兼容性好。 在MapReduce过程中,had...原创 2018-03-29 10:50:50 · 1042 阅读 · 0 评论 -
MapReduce的个人理解
MapReduce作为一个并行计算框架,MR一共分为三个部分分别是Map->Shuffle->Reduce,我们就从这三个步骤来理解MapReduce。1.map端 Hadoop将MapReduce的输入数据分成等长的数据块,这个过程叫做input split也就是分片,然后为每一个分片分配一个map任务,然后通过用户自己定义的逻辑来处理这些分片里的数据,这里就有一个问题...原创 2018-03-28 15:47:56 · 883 阅读 · 0 评论 -
《Hadoop权威指南》个人笔记
一 MapReduce1 . 分片:Hadoop将MapReduce的输入数据划分为等长的小数据块,称为输入分片(input split)简称分片。hadoop为每个分片构建一个map任务。我的理解:MR程序中map的个数就是数据分片的个数,因此我们应该可以控制分片的大小来控制map的个数,至于为什么要分片,很简单,我们可以并行处理每一片的数据,肯定会比单独处理一个大文件快很多。注意,分片如果分的...原创 2018-03-23 20:29:55 · 241 阅读 · 0 评论 -
HQL与SQL中的JOIN操作
一.SQL中的连接 左连接:左边表的内容全部存在,左表在右表中没有匹配项的右边值为空 右链接:右边表的内容全部存在,右边在左表中没有匹配项的左边值为空 内连接:普通的连接操作,通过(= > <)等符号进行连接 全连接 :左右表数据都在,当对方表没有匹配项时数值为空 例子a表 num name ...原创 2018-04-21 21:26:48 · 1593 阅读 · 0 评论