一个Bangumi.tv的爬虫

最新推荐文章于 2024-05-17 10:02:22 发布

Wengs95

最新推荐文章于 2024-05-17 10:02:22 发布

阅读量2.7k

点赞数

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/s291547/article/details/78322013

版权

本文介绍了一个使用Scrapy框架重写的Bangumi.tv爬虫程序，涵盖了代理获取、目录抓取、内容抓取和数据库写入四个部分。通过IPProxyPool获取代理IP，利用Beautifulsoup解析数据，程序在4进程20线程下达到100页/秒的爬取速度。目前存在异常处理简单、缺乏断点续爬功能等问题，未来计划改进。

摘要由CSDN通过智能技术生成

对爬虫的学习也有一段时间了，但由于要应付校内实习和秋招大潮，爬虫学习的进度也有所停滞。在校内实习期间抽空看了下scrapy的视频教程，对用scrapy开发爬虫也有了一定的了解，自己也尝试“套用”scrapy进行了一些爬取工作，其中也包括使用scrapy进行Bangumi的爬取，但对其中的Rule规则、异步读写数据库、middleware中间件的使用等地方还是不求甚解。在读到知乎上某大大的eh爬虫后，决定参照其模式将Bangumi爬虫重写一遍，整理成一个独立的、架构相对完整的爬虫程序。