Mapreduce中使用多线程的问题

原创 2016年06月01日 21:46:45

在项目中遇到了Mapreduce使用多线程的问题,在此记录、讨论一下。

需实现流程是读取关键词文件中的关键词,根据关键词搜索图片,爬取相关的图片的地址,开启线程下载、转换图片。每个关键词开启一个maptask,搜索获取多图片地址,开启多线程执行下载和转化过程,由于Mapreduce是多进程模式,执行多线程时各线程的执行状况无法控制,那么整个下载和转化过程就无法严格控制,无法获取完成map任务进入下一步reducer的时间,所以此处只适合开启完后不再去执行下一步,只等待图片下载完,就当作是此轮任务结束。

版权声明:转载请注明出处,共同学习。

相关文章推荐

mapreduce采用多进程与spark采用多线程比较

转自:Mapreduce多进程与spark多线程 Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(...

mapreduce任务执行过程详细分析--源码级分析

本人适合对mapreduce有一定经验人来阅读,对于新手来讲,只是阅读前面会有收获不少,但是到了后面就会有些看不懂,可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考,或许这是一篇不...

Hadoop MapReduce之ReduceTask任务执行(二):GetMapEventsThread线程

reduce任务为获得map的输出要和TaskTracker 通信以获得map的完成情况,负责这个工作的是GetMapEventsThread。线程运行时会通过TT的代理调用TaskUmbilical...

使用FMDB多线程访问数据库,及database is locked的问题

使用FMDatabaseQueue,解决5: database is locked问题
  • kyfxbl
  • kyfxbl
  • 2014-07-25 18:38
  • 12134

关于多线程的几个小问题

  • 2014-01-23 19:57
  • 6.99MB
  • 下载

关于使用opencv的提速(二)(多线程问题,openMP)

主要参照的是:http://www.cnblogs.com/yangyangcv/archive/2012/03/23/2413335.html?ADUIN=745066753&ADSESSION=1...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)