python爬虫基础(10:动态网页之Ajax)

本文介绍了如何抓取使用Ajax技术的动态网页。动态网页是通过js生成内容,Ajax则是异步加载数据的技术。爬取动态网页的关键在于找到Ajax请求,分析其Request URL和Preview。以豆瓣电影剧情片排行榜为例,展示了如何通过变动start参数构造URL并提取Json数据。
摘要由CSDN通过智能技术生成

动态网页是什么?

有些时候,我们下载到的源码跟浏览器开发者工具中看到的不一样,就是因为很多代码都是在使用过程中有 js 后来生成的,页面不会变动的叫静态网页,页面会因 js 而变动的就叫动态网页

本文先讲利用 Ajax 技术的动态网页

Ajax 是什么?

Ajax (asynchronous JavaScript and XML):翻译为异步刷新的 JavaScript 和 XML

工作过程:原始的网页并不包含全部数据,当需要更多数据时,将向服务器发送一个Ajax请求,获取数据来渲染在网页上

例子:比如刷微博,当下拉刷新时,就是在向服务器发送Ajax请求来获取更多微博

前景:越来越多的网页使用Ajax请求,是个趋势

如何爬取?

既然下载源码得不到想要数据,那要怎么获取呢?其实每次我们下拉刷新页面,服务器就已经通过 Ajax 把数据发送给我们,因此我们只需要找到对应的 Ajax 请求,从中提取需要的信息就行

案例我们选用 豆瓣电影剧情片排行榜

https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值