大数据之统计股票开盘和收盘平均价

本文介绍了一种使用Hadoop MapReduce在Ubuntu虚拟机环境下统计股票开盘和收盘平均价的方法。首先,文章概述了MapReduce模型,强调其并行计算、数据分片和计算向数据靠拢的优势。接着,详细描述了MapReduce处理过程,包括映射任务的执行、分割大小的考虑以及减少任务如何处理映射输出。最后,文章提到了实际应用股票数据的处理步骤和代码解析。
摘要由CSDN通过智能技术生成

一、说明:该实验环境是基于虚拟机Ubuntuhadoopeclipsemapreduce

1、MapReduce模型简介:

  •MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:MapMap 任务 (分割及映射)ReduceReduce 任务 (重排,还原)

  •编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算

  •MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理

  •MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销

  •MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave。Master上运行JobTracker,Slave上运行TaskTracker

  •Hadoop框架是用Java实现的,但是,MapReduce应用程序则不一定要用Java来写

2、详细的整个过程

映射的任务是为每个分割创建在分割每条记录执行映射的函数。

有多个分割是好处的, 因为处理一个分割使用的时间相比整个输入的处理的时间要少,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liuxiaodong1312

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值