DataWhale 组队学习爬虫 Task2 补充(爬取微博)

本文介绍了如何使用浏览器开发者工具切换到手机模式,进入微博并搜索目标用户,通过Network面板定位XHR请求,获取微博内容的URL。在编写爬虫代码时,要注意删除'Accept-Encoding'中的'gzip, deflate'避免解码错误,并可能需要使用json.loads()处理数据。提供的代码示例展示了使用request包进行请求的处理方法。" 111930176,9932411,华为云WeLink考勤打卡指南,"['协同办公', '移动办公', '考勤管理', '企业效率', '华为云服务']
摘要由CSDN通过智能技术生成

1. 首先,我们要把电脑网页版的微博页面在流浪器中转为手机端的页面,这里最好使用谷歌浏览器,按F12,点击下面按钮变成手机端模式:

然后搜索并进入新浪微博,在微博搜索栏搜索LYH,点击头像进去他的主页:

 

2. 在Network功能下,我们刷新一下网页,然后再逐个XHR下去看,name列表中哪个是微博内容对应的。

3. 找到了这个东西后,在Headers下找到Url,Reqeust Headers等信息,就可以写代码去获取了

 

上代码:(这里的代码是昨天晚上用的,link可能跟图片上不一样)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值