ajax div 赋值重新渲染_网络爬虫:Ajax渲染界面爬取

    之前介绍了一般网页的爬取流程,通过模拟浏览器发起请求获取网页信息,再通过解析库提取所需要的信息。然而,在实际应用中,许多网页应用了一些JavaScript渲染技术,使得通过请求得到的并非真实的网页信息。在这些JavaScript中,有的是通过Ajax加载的,有的是包含在HTML文档中的,也有的是经过JavaScript与特定算法计算后生成的。

Ajax是什么

    AJAX = 异步 JavaScript 和 XML。

    AJAX 是一种用于创建快速动态网页的技术。

    通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

Ajax分析

    在浏览器中打开一个通过Ajax渲染的界面(例如某人的微博),按F12打开开发者工具,切换到Network选项卡,刷新界面会看到很多新的条目。寻找Tyoe为xhr(Ajax的特殊请求类型)的请求,点开即可查看详细信息。

Ajax结果提取

    观察对比每个ajax请求的信息,构造headers其中需要包含User-Agent、referer、x-requested-with等参数。

    构造可动态变化的URL。先创建一个基础URL(base_url)再新建一个parm字典中添加URL的参数以及对应的数值。最后,url=base_url+urlencode(parm)构造出可动态变化的URL。

    之后,调用request向URL发起请求,返回json数据,通过response.json()即可获取数据。

喜欢扫码关注

d2d82db6594cde3fc332f163eadcce2a.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值