微博热搜榜、热点、帖子、评论爬虫---Scrapy框架、Selenium

本文介绍了使用Scrapy和Selenium爬取微博热搜榜、热点及帖子评论的详细步骤,包括环境搭建、数据表设计、反爬虫策略等。通过对网页的Ajax内容分析,提取所需数据并存储到数据库。文章提供了部分关键代码示例和流程图,同时对项目进行了总结和未来改进的建议。
摘要由CSDN通过智能技术生成

提示:主要提供思路和内容参考,不提供完整资料;文章内容有许多瑕疵的地方(由于内容量太大),请理解。如果遇到不了解的地方,可以联系小编,尽个人所能解答。文章内容有错误的地方,希望第一时间能指点出来,小编可以及时完善。

作者:Irain
QQ:2573396010
微信:18802080892

目录

1 实现前准备

1.1 了解内容

Ajax内容了解链接

1.2 环境搭建

1.2.1 第三方库

pip install scrapy -i https://pypi.douban.com/simple/
pip install selenium -i https://pypi.douban.com/simple/
pip install pymysql -i https://pypi.douban.com/simple/
pip install requests -i https://pypi.douban.com/simple/
pip install lxml -i https://pypi.douban.com/simple/

1.2.2 模拟浏览器

在这里插入图片描述

1.2.3 下载webdriver

下载webdriver链接
在这里插入图片描述

1.2.4 数据库搭建

Mysql 5.5.36下载
Mysql-Front下载
数据库搭建链接

1.2.5 Scrapy爬虫

创建Scrapy爬虫
在DOC窗口创建scrapy项目和爬虫
设置配置
scrapy爬虫项目设置settings.py参数
代理IP、user-agent
中间件、请求头代理、IP代理
在这里插入图片描述

2 实现步骤

分析微博网页(热搜榜、热点、热点帖子、帖子互动评论)

2.1 热搜榜网页

2.1.1 详细分析热搜榜网页

热搜榜榜单的热点数据都是通过Ajax动态加载的。浏览器访问热搜榜网页,所有热点全部加载出来,不需要进行下一步操作。访问热搜榜网页不需要登陆微博。在开发者调试工具(在浏览器中按下F12)中进过多次访问、分析,热搜榜Ajax的url是不变的。这里用get访问方式,直接获取热搜榜Ajax内容。

热搜榜链接在这里插入图片描述

2.1.2 分析热搜榜网页的Ajax内容

详细分析Ajax内容:把Ajax内容在json.cn网页分析,发现热搜榜热点在json中存储的规律。使用json加载获取的Ajax中的热点内容(主题、链接、热度)。
http://json.cn/
在这里插入图片描述
在这里插入图片描述

2.1.3 热点数据表内容

在这里插入图片描述

2.1.4 热搜榜思维图

在这里插入图片描述

2.1.5 热搜榜相关代码

  • 0
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值