多线程在 Python 爬虫学习过程中应用落地,提速,提速,再提速。
目标站点分析
本次要抓取的目标为懒人畅听网,其中我随机选择了一个分类,有声小说频道,其余频道可使用雷同的办法抓取,增加遍历之后,可以对全站进行抓取。
列表页分页规则如下
本次依旧只对列表页数据进行提取,只增加多线程模块 threading
的应用,提高采集效率。
http://www.lrts.me/book/category/1/recommend/1/20
http://www.lrts.me/book/category/1/recommend/2/20
提取规则模板如下:
http://www.lrts.me/book/category/1/recommend/页码/20
全站页码数,可以直接人