MapReduce
Even710
持之以恒
展开
-
MapReduce数据压缩
MapReduce数据压缩Hadoop三个阶段Hadoop数据压缩压缩的基本原则MR支持的压缩编码编码/解码器压缩性能使用方式map端输出压缩reduce端输出压缩Hadoop三个阶段1)分布式文件系统HDFS用于存储宏大数据量文件。2)分布式编程框架MapReduce用于分布式计算海量数据。3)yarn框架分布式调度平台,用于为MapReducer合理分配资源。Hadoop数据压...原创 2019-01-10 15:35:45 · 523 阅读 · 0 评论 -
MapReduce工作流程
MapReduce工作流程图流程步骤:生成驱动Jar包,上传到Yarn集群;hadoop jar jar文件启动客户端,Yarn集群根据切片,计算MapTask数,分配NodeManager资源;通过默认TextInputFormat方式传输数据到MapTask节点,进入Map阶段;经逻辑运算后,通过outputcontroller把数据写入到环形缓冲区<k,v>;达到...原创 2019-01-02 21:02:27 · 555 阅读 · 0 评论 -
HBase-MR操作
HBase擅长存储数据,但不擅长计算分析数据,但是它可以借用其他组件(mapreduce/spark),使用官方提供的hbase-api来实现计算分析数据功能。hbase-server.jar下面官方提供的一个Hbase操作MR的例子,此例子作用是对一张表的rowkey进行计数。解决HBase与MapReduce的依赖包问题。# 显示hbase需要的MapReduce Jar包hba...原创 2019-01-31 00:42:05 · 1344 阅读 · 1 评论