2019-12-14 爬网页10-多进程下载漫画网站图片(requests+lxml+fake_useragent+multiprocessing)

最新推荐文章于 2024-03-27 16:14:51 发布

没人不认识我

最新推荐文章于 2024-03-27 16:14:51 发布

阅读量5k

点赞数

分类专栏： python IT

本文链接：https://blog.csdn.net/weixin_42555985/article/details/103543666

版权

本文介绍了如何使用requests, lxml, fake_useragent库爬取漫画网站图片，并通过multiprocessing模块实现多进程下载。首先解析总目录获取章节链接，然后通过正则表达式获取每章总页数，最后利用多进程加速图片下载，提高效率。" 132372659,19694714,R语言ggplot2设置轴标题粗体：element_text函数详解,"['R语言', '信息可视化']

摘要由CSDN通过智能技术生成

想看漫画，但是不知道为什么网页上不能显示图片。
没办法，只好把漫画下载下来慢慢看了。

这个网站结构很简单。总目录–>章节–>页

总目录

https://www.dagumanhua.com/manhua/3883/

章节

每个章节链接就在上面链接中

<div class="cy_plist" id="play_0">
                <ul>
		                 <li><a href="/manhua/3883/623532.html" title="第813话 八品炼药师（上）" target="_blank"><p>第813话 八品炼药师（上）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/623530.html" title="第814话 八品炼药师（下）" target="_blank"><p>第814话 八品炼药师（下）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/622052.html" title="第812话 熊的宝藏（下）" target="_blank"><p>第812话 熊的宝藏（下）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/622051.html" title="第811话 熊的宝藏（上）" target="_blank"><p>第811话 熊的宝藏（上）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/619107.html" title="第810话 山脉之主（下）" target="_blank"><p>第810话 山脉之主（下）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/619105.html" title="第809话 山脉之主（上）" target="_blank"><p>第809话 山脉之主（上）</p><i></i></a></li>
                                   <li><a href="/manhua/3883/617623.html