Python3爬取动态网页

本文为南大张莉老师《用Python玩转数据》学习笔记。

利用ajax技术渲染的网页在源代码中看不到网页中呈现的内容,ajax不需要加载整个网页就可以更新部分的网页内容,如新浪鼓动新闻就可通过其右上角这个“刷新”按钮来动态生成网页。
在这里插入图片描述
查看网页源代码,发现其中没有网页中所呈现的内容,所以需要用到浏览器的开发者工具进行查看(笔者是直接用Google浏览器右键的检查查看)

找到最关键的地址,找到产生数据的Request URL(或查看Query String Parameters参数,将它们放到一个字典当中),然后传给GET函数的params参数,就可以爬取这个网页了。
在这里插入图片描述

>>> import requests
>>> r=requests.get('https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1&r=0.9375562969892552&callback=jQuery1112049352290501362717_1586101425761&_=1586101425763')
>>> r.status_code
200
>>> r.text

输出的代码中有很多这样的内容:
在这里插入图片描述
这是unicode字符,它们其实就是新闻的标题和内容,对它们做一些转换,就可将其转成中文。
可将它们编码成utf-8的字节流对象,再用decode()方法把它解码成中文:

>>> r.text.encode('utf-8').decode('unicode=escape')

从以下输出中可知,实现类了转换。
在这里插入图片描述

注:一定要在遵从爬虫协议的条件下使用开发者工具。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值