基于Hadoop实现通用的并行任务处理

最新推荐文章于 2022-10-10 16:07:22 发布

ayheos

最新推荐文章于 2022-10-10 16:07:22 发布

阅读量1.4k

点赞数

分类专栏： Hadoop云平台文章标签： hadoop 任务框架 mapreduce 存储多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ayheos/article/details/6220711

版权

Hadoop云平台专栏收录该内容

4 篇文章 0 订阅

订阅专栏

利用 Hadoop 云技术框架实现通用的并行任务处理功能，将原本只是单机程序改造成最终运行在 Hadoop 云平台里。

l 优点 :

1. 分布并行运行

基于 MapReduce 及 dfs （分布式文件系统）实现了分布并行运行，可实现一个

NoSplitInputFormat 类用于支持单个 Map 任务运行。

2. 出错自动重试

Hadoop 框架具备可配置的出错任务自动重试功能，配置参数为：

mapred.map.max.attempts 。

3. 可保留原始输入重复运行以用于调试

当尝试手动再次运行或调试上一个任务时， Hadoop 提供的 IsolationRunner 可

实现保留原始输入本地再次执行的功能。相应配置参数为：

keep.task.files.pattern 。

4. 网页端运行状态实时监控，比如可以实时动态显示处理进度

可实现 CustomerProcess 类，通过调用 TaskReporter 的 setProgress 方法实现

网页端进度条控制，可在 Map 任务的 setup 里启用一个心跳任务执行

CustomerProcess 功能。

5. 方便的网页端日志查询

Hadoop 强大的网页监控功能可提供日志的实时收集。

6. Hadoop 框架其它的优点，如大数据量存储及处理

利用大集群，大存储实现单机可能没法完成的任务。

l 缺点：

1. 只能直接处理来自 dfs 上的文件

由于任务的分布式运行特征，数据只能预先存储在 dfs 上，当然也可以利用

Hadoop 的 fuse-dfs 模块实现 dfs 上的数据映射到本地文件系统。如调用 oracle 的

sqlldr 工具加载数据时，可采取这种形式，从而避免数据由 dfs 转移至本地文件系

统这一过程。

注：由于 fuse-dfs 自身的的限制，有些任务可能没法这样实现，特别是牵涉到

写文件功能时，如解压缩功能等。

2. 不能直接支持对文件的随机写功能

由于某些 dfs 本身的限制无法提供输出流的随机写功能（ api 上直接没有提供

seek 功能），对于需要经常改写较大文件的内容时，这时就没有比较直接的处理方

式了。

l 注意事项：

1. 要注意利用 Hadoop DistributedCache 技术实现依赖包和配置的分布

由于任务的分布运行特性，为了保证产品的易维护性，可以将产品所依赖的 jar

包和配置文件分发到 dfs 上。 Hadoop 框架分别提供了：

DistributedCache.addFileToClassPath ，可用于分发 jar 包

DistributedCache.addArchiveToClassPath ，可用于分发配置文件。

2. 利用序列化将参数传入每一个 map 任务

由于 Map 任务是以单独的进程运行，在传入参数时应采用 Hadoop 提供的序列

化功能实现有可能跨机器不同进程间的参数传入。 Hadoop 框架分别提供了：

DefaultStringifier.store ，可用于序列化

DefaultStringifier.load ，可用于反序列化

3. 利用持久化将返回参数传出

在 Map 任务返回参数时也应采用序列化的方式将参数序列化至 dfs 上存储。

4. 应仔细设计传入参数

在设计传入给每一个 Map 任务的参数时应仔细斟酌。比如设计 FTP 下载功能时，应采取如下策略：同时执行多个 Map 任务实现多个文件同时下载，而不是同时执行多个 Hadoop Job ，或是在一个 Map 任务里多线程运行。具体实现可利用 Hadoop 的 InputFormat.getSplits 自行实现可控的支持并发运行多个 Map 任务的功能。

5. 开发调试时可以让 Hadoop 以 Local 方式运行

在做开发调试时，为避免多机器分布运行带来的调试不便，可通过设置如下参

数以支持 Hadoop 任务单机单进程运行：

fs.default.name 为 file:///

mapred.job.tracker 为 local

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop实现通用的并行任务处理

利用Hadoop云技术框架实现通用的并行任务处理功能，将原本只是单机程序改造成最终运行在Hadoop云平台里
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。