
MapReduce
BigMoM1573
淡泊名利
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce> Java代码获取文件名称
获取文件名称 在Map中加入以下代码,即可获取读取的文件名称 //通过context可以获取这行文本所属的文件名称 FileSplit inputSplit = (FileSplit)context.getInputSplit(); String filename= inputSplit.getPath().getName(); 代码 MoreFileMappe...原创 2019-11-20 20:56:35 · 254 阅读 · 0 评论 -
MapReduce>Reduce端join与Map端Join算法实现
文章目录1、reduce端join算法实现2 map端join算法实现 1、reduce端join算法实现 1、需求: 订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品信息表t_product id pname...原创 2019-11-20 20:37:38 · 141 阅读 · 0 评论 -
MapReduce>Java代码应用Snappy压缩算法
操作流程 Snappy算法在本地模式里边没有,所以必须得去集群里跑这个代码 首先请看操作记录 [root@hadoop01 home]# hadoop fs -mkdir /aaaaa 在集群新建一个/aaaaa目录 [root@hadoop01 home]# hadoop fs -put a.txt /aaaaa/ 随便建一个a.txt输入任意内容,然后上传到集群的/aaaaa目录下 [ro...原创 2019-11-20 19:57:15 · 226 阅读 · 0 评论 -
MapReduce >集群调优
MTU指跨界点传输时,一次性发送的数据的大小,把它调大,能起到优化效果,但是调大后丢包率会增加,有风险。 MTU太大,丢包率高,太小,慢。要找个折中点。 集群调优核心思路 在网络带宽、磁盘IO是瓶颈的前提下 能不使用io 和网络,就不使用。在必须使用的情况下,能少用IO 网络就少用, 所有的能够减少网络开销的、减少IO使用的可选项,都可以作为集群调优的可选项。(软件层面(操作系统----集群 层...原创 2019-11-20 14:56:24 · 151 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(C)
1、MapTask运行机制详解以及Map任务的并行度原创 2019-11-20 14:48:45 · 565 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(B)
文章目录MapReduce的分区与ReduceTask的数量 MapReduce的分区与ReduceTask的数量 在MapReduce中,通过指定分区,会将同一个分区的数据发送到同一个reduce中,例如为了数据的统计,可以把一批类似的数据发 送到同一个reduce当中去,在同一个reduce中统计相同类型的数据,就可以实现类似数据的分区,统计等 直观的说就是相同类型的数据,送到一起去处理,在r...原创 2019-11-16 10:34:27 · 302 阅读 · 0 评论 -
MapReduce>分布式计算框架MapReduce(A)
文章目录分布式并行计算框架MapReduceHadoop为什么比传统技术方案快?理解MapReduce思想MapReduce并行计算Hadoop -MapReduce设计构思MapReduce编程初体验 Hadoop组成 Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。 Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。 Hadoop ...原创 2019-11-14 20:13:53 · 1110 阅读 · 0 评论