【第22期】观点:IT 行业加班,到底有没有价值?

Mapreduce中使用多线程的问题

原创 2016年06月01日 21:46:45

在项目中遇到了Mapreduce使用多线程的问题,在此记录、讨论一下。

需实现流程是读取关键词文件中的关键词,根据关键词搜索图片,爬取相关的图片的地址,开启线程下载、转换图片。每个关键词开启一个maptask,搜索获取多图片地址,开启多线程执行下载和转化过程,由于Mapreduce是多进程模式,执行多线程时各线程的执行状况无法控制,那么整个下载和转化过程就无法严格控制,无法获取完成map任务进入下一步reducer的时间,所以此处只适合开启完后不再去执行下一步,只等待图片下载完,就当作是此轮任务结束。

版权声明:转载请注明出处,共同学习。 举报

相关文章推荐

多线程-死锁问题概述和使用

package cn.itcast_02; public class DieLock extends Thread { private boolean flag; public DieLoc...

多线程下使用 SimpleDateFormat 的问题

最近用到多线程写通信服务,发现在解析时间是一直莫名的错误,最后获取的时间和设备给我传输的时间经常不一致,时间有0144-12-12、2144-02-12等。很莫名其妙!   经过分析得出在转换时间时使用了SimpleDateFormat ,SimpleDateFormat是线程不安全的...

程序员升职加薪指南!还缺一个“证”!

CSDN出品,立即查看!

遇到问题-------perl无法使用多线程This Perl not built to support threads

This Perl not built to support threads perl5.8.0之后的版本 默认配置都是不启用多线程的  threads模块也从CPAN下载装好了也没有用 ...

C++在多线程中使用UINT做循环判断变量的不确定性问题

先看下面一段代码 DWORD WINAPI ThreadProc(LPVOID lpParam); DWORD WINAPI ThreadProc2(LPVOID lpParam); DWORD g_dwThreadID; DWORD g_dwThreadID2; UINT...

多线程中使用HIBERNATE,解决NO SESSION 问题

本文转自网络:   新起的线程需要绑定Hibernate session,才能在新线程中使用事务和延迟加载等功能,否则会曝出no session异常
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)