python如何爬取动态网页数据

1.引言

  说到爬网页,我们一般的操作是先查看源代码或者审查元素,找到信息所在节点,然后用 beautifulsoup/xpth/re 来获取数据,这是我们对付静态网页的常用手段。
  但大家也知道,现在的网页大多都是动态的了,即数据是通过js渲染加载的,对付静态网页那一套在这根本不讨好,所以,掌握爬取动态加载数据的方法就显得十分必要了。
  下面以爬取中国电影网中国票房排行前500为例讲解下获取动态数据的一般步骤。

2.实例与步骤

2.1首先打开数据页面,右键选择审查元素,然后选择Network——>XHR,可以看到,现在里面什么都没有。
这里写图片描述

2.2然后点击浏览器的刷新按钮或者按F5刷新页面,可以看到,有一条数据出现了,这个链接就是获取数据的页面API,选择Response,可以看到,它是以Json格式返回的数据,我们需要的信息都在里面。
这里写图片描述

2.3点击页面上的下一页,多获取几条数据,以便找到它们之间的联系。
这里写图片描述
可以看到,图上的几条数据链接只有最后的页码不同,简直不要太友好!复制一条链接保存,用作代码模拟参考。

2.4知道了数据链接间的关系,我们就可以在代码里面模拟了。比如我们要获取前50页的信息,那就可以这样写。

  for i in range(1, 51, 1):
        src = 'http://www.cbooo.cn/Mdata/getMdata_movie?area=50&type=0&year=0&initial=%E5%85%A8%E9%83%A8&pIndex=' + str(i)
        getHtml(src)

2.5通过以上操作我们得到了返回的数据,但返回的是Json格式的数据,所以我们需要对它进行解析,然后从中得到每部电影的ID(可以发现,每部电影的链接都是这种格式:http://www.cbooo.cn/m/641515,后面的数字是电影的ID,这是我们需要从返回的Json数据里得到的东西。),得到ID后,组成电影链接,之后就是静态页面的操作了。

import requests
import json
def getHtml(src):
    html = requests.get(src).content.decode('utf-8')
    for con in json.loads(html)['pData']:
        url = 'http://www.cbooo.cn/m/' + str(con['ID'])
        newhtml = requests.get(url).content.decode('utf-8')

3.总结

  获取动态数据的关键是找到“页面获取数据的API”,然后找到这种数据链接间的关系,之后对返回的数据进行解析,从中得到需要的数据。

博主其他文章推荐:
[1] 【python实用特性】- 迭代、可迭代对象、迭代器

[2] 【python实用特性】- 列表生成式

[3] 【python实用特性】- yield生成器

[4] 【python实用特性】- 装饰器

[5] 【Matplotlib】-自定义坐标轴刻度完成20万+数据的可视化

[6] Python+selenium实现自动爬取实例

[7] python爬取豆瓣Top250-改进版

[8] requests使用cookie模拟登陆豆瓣

[9] requests使用session保持会话

  • 6
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值