DataWhale 组队学习爬虫 Task2 补充(爬取微博)

最新推荐文章于 2020-10-11 14:40:42 发布

方糖冰红茶

最新推荐文章于 2020-10-11 14:40:42 发布

阅读量252

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37855575/article/details/98948717

版权

本文介绍了如何使用浏览器开发者工具切换到手机模式，进入微博并搜索目标用户，通过Network面板定位XHR请求，获取微博内容的URL。在编写爬虫代码时，要注意删除'Accept-Encoding'中的'gzip, deflate'避免解码错误，并可能需要使用json.loads()处理数据。提供的代码示例展示了使用request包进行请求的处理方法。" 111930176,9932411,华为云WeLink考勤打卡指南,"['协同办公', '移动办公', '考勤管理', '企业效率', '华为云服务']

摘要由CSDN通过智能技术生成

1. 首先，我们要把电脑网页版的微博页面在流浪器中转为手机端的页面，这里最好使用谷歌浏览器，按F12，点击下面按钮变成手机端模式：

然后搜索并进入新浪微博，在微博搜索栏搜索LYH，点击头像进去他的主页：

2. 在Network功能下，我们刷新一下网页，然后再逐个XHR下去看，name列表中哪个是微博内容对应的。

3. 找到了这个东西后，在Headers下找到Url，Reqeust Headers等信息，就可以写代码去获取了

上代码：(这里的代码是昨天晚上用的，link可能跟图片上不一样)

最低0.47元/天解锁文章

方糖冰红茶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。