Hadoop学习
文章平均质量分 86
风-之-谷
这个作者很懒,什么都没留下…
展开
-
Hadoop基本理论
1、什么是Hadoop? Hadoop是一个分布式系统。主要包含两个核心组件HDFS和MR。 HDFS: 分布式存储系统,解决海量数据的存储问题。 MR:分布式计算框架,解决海量数据的处理问题。 在基础的HDFS和MR基础上,Hadoop生态圈又加入了其它的组件: Habse 非关系型的分布式数据库, Hive基于HDFS的数据仓库, Pig 一个基原创 2017-08-24 08:49:49 · 479 阅读 · 0 评论 -
Hadoop表连接问题
1、在Map阶段连接 适用情况,两个表连接,一个表非常大,一个表非常小,小的表可以放进内存中。使用分布式缓存DistributedCache,将小表缓存到每个Map节点上,连接时,扫描Map中的大表分块,判断是否存在和小表相同的键,如果存在,则进行连接。 2、Reduce阶段连接 Map阶段,给每个键值对标注来源,例如来源于a表,标记后的数据为;来源于b表,表记为 R原创 2017-08-24 14:35:52 · 359 阅读 · 0 评论