提示:主要提供思路和内容参考,不提供完整资料;文章内容有许多瑕疵的地方(由于内容量太大),请理解。如果遇到不了解的地方,可以联系小编,尽个人所能解答。文章内容有错误的地方,希望第一时间能指点出来,小编可以及时完善。
作者:Irain
QQ:2573396010
微信:18802080892
目录
1 实现前准备
1.1 了解内容
1.2 环境搭建
1.2.1 第三方库
pip install scrapy -i https://pypi.douban.com/simple/
pip install selenium -i https://pypi.douban.com/simple/
pip install pymysql -i https://pypi.douban.com/simple/
pip install requests -i https://pypi.douban.com/simple/
pip install lxml -i https://pypi.douban.com/simple/
1.2.2 模拟浏览器
1.2.3 下载webdriver
1.2.4 数据库搭建
Mysql 5.5.36下载
Mysql-Front下载
数据库搭建链接
1.2.5 Scrapy爬虫
创建Scrapy爬虫
在DOC窗口创建scrapy项目和爬虫
设置配置
scrapy爬虫项目设置settings.py参数
代理IP、user-agent
中间件、请求头代理、IP代理
2 实现步骤
分析微博网页(热搜榜、热点、热点帖子、帖子互动评论)
2.1 热搜榜网页
2.1.1 详细分析热搜榜网页
热搜榜榜单的热点数据都是通过Ajax动态加载的。浏览器访问热搜榜网页,所有热点全部加载出来,不需要进行下一步操作。访问热搜榜网页不需要登陆微博。在开发者调试工具(在浏览器中按下F12)中进过多次访问、分析,热搜榜Ajax的url是不变的。这里用get访问方式,直接获取热搜榜Ajax内容。
2.1.2 分析热搜榜网页的Ajax内容
详细分析Ajax内容:把Ajax内容在json.cn网页分析,发现热搜榜热点在json中存储的规律。使用json加载获取的Ajax中的热点内容(主题、链接、热度)。
http://json.cn/