微博热搜榜、热点、帖子、评论爬虫---Scrapy框架、Selenium

最新推荐文章于 2024-08-09 08:06:10 发布

置顶

Irain_Luo

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量2.1k

点赞数

分类专栏： Resume 文章标签： python

本文链接：https://blog.csdn.net/weixin_42122125/article/details/106616002

版权

本文介绍了使用Scrapy和Selenium爬取微博热搜榜、热点及帖子评论的详细步骤，包括环境搭建、数据表设计、反爬虫策略等。通过对网页的Ajax内容分析，提取所需数据并存储到数据库。文章提供了部分关键代码示例和流程图，同时对项目进行了总结和未来改进的建议。

摘要由CSDN通过智能技术生成

提示：主要提供思路和内容参考，不提供完整资料；文章内容有许多瑕疵的地方（由于内容量太大），请理解。如果遇到不了解的地方，可以联系小编，尽个人所能解答。文章内容有错误的地方，希望第一时间能指点出来，小编可以及时完善。

作者：Irain
QQ：2573396010
微信：18802080892

1 实现前准备

1.1 了解内容

Ajax内容了解链接

1.2 环境搭建

1.2.1 第三方库

pip install scrapy -i https://pypi.douban.com/simple/
pip install selenium -i https://pypi.douban.com/simple/
pip install pymysql -i https://pypi.douban.com/simple/
pip install requests -i https://pypi.douban.com/simple/
pip install lxml -i https://pypi.douban.com/simple/