1.引言
说到爬网页,我们一般的操作是先查看源代码或者审查元素,找到信息所在节点,然后用 beautifulsoup/xpth/re 来获取数据,这是我们对付静态网页的常用手段。
但大家也知道,现在的网页大多都是动态的了,即数据是通过js渲染加载的,对付静态网页那一套在这根本不讨好,所以,掌握爬取动态加载数据的方法就显得十分必要了。
下面以爬取中国电影网中国票房排行前500为例讲解下获取动态数据的一般步骤。
2.实例与步骤
2.1首先打开数据页面,右键选择审查元素,然后选择Network——>XHR,可以看到,现在里面什么都没有。
2.2然后点击浏览器的刷新按钮或者按F5刷新页面,可以看到,有一条数据出现了,这个链接就是获取数据的页面API,选择Response,可以看到,它是以Json格式返回的数据,我们需要的信息都在里面。
2.3点击页面上的下一页,多获取几条数据,以便找到它们之间的联系。