我的扒图工具基本上已经完成开发了。
经历了最原始的版本:用多个for循环完成整个网站多个不同类别下多个系列下多个页面多个图片的下载; 我的扒图工具开发过程(一)
流水线改进版:引入MQ,使用消息队列,将扒图过程分解成几个工序,不同工序由不同“专业工人”处理,用消息队列作为流水线,消灭for循环。(我的扒图工具开发过程 (二),我的扒图工具开发过程 (三),我的扒图工具开发过程 (四))
流水线优化版:一些耗时长的工序的流水线积累了太多半成品,于是将“专业工人”改造成多能工,用一条流水线,根据收到“半成品”下道工序的标记,调用对应工序的功能处理。
多条流水线负载平衡多能工版:可以开多条消息队列,每条队列都可以安排“多能工”,哪条队列消息少就将消息推到哪条队列。
现已将所有代码发布上Github,欢迎大家指正。谢谢。
https://github.com/DinoFeng/pictureSpider