新浪微博爬虫(无需模拟登陆)

本文介绍了使用Python进行新浪微博爬虫的步骤,无需模拟登录。通过Chrome浏览器的开发者模式观察网络请求,找到XHR请求,解析JSON数据获取微博内容和图片URL,从而实现微博的抓取和下载。
摘要由CSDN通过智能技术生成

环境:
浏览器: chrome 64
python 3.6

ps:python新手,写得不好求轻喷
ps:这是更加纯净的微博内容页面
思路步骤:

  1. 打开微博移动端网址并登录,
    微博移动端
  2. 找到目标人物的微博,并按F12打开开发者模式,找到Network选项卡,勾选preserve log,类型选择XHR,下拉页面直至加载下一页,发现XHR中多了几项文件,打开图中的URL,如图这里写图片描述这里写图片描述
  3. 复制响应页面的内容,并用在线json工具解析可得
    这里写图片描述
    设该json为r,cards=r[‘data’][‘cards’]为微博列表,对cards中的每一个card,图片信息pics_info在card[‘mblog’][‘pics’],以此类推,获取到图片的URL之后就可以下载了

附上代码:

from
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值