Python爬虫爬取Ajax加载的百度图库

Ajax 是一种用于创建快速动态网页的技术, 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。

Ajax用一句话来说就是不需要刷整个新页面即可从服务器取得数据(局部刷新)

今天通过在百度图片中输入汽车,然后爬取搜索到的图片,并保存到本地目录来认识Ajax。

1. 分析百度图片网站

  • 找到真正的请求地址url

在百度图片上输入**“汽车”**后,右键检查,选择Network中的XHR,然后将网页向下拉,观察发现地址栏的网址并没有发生变化,而图片在增加。 在抓包工具的显示下可以看到有相应的ajax请求增加,点击其中一个文件可以看到详细的信息,请求返回的数据格式是json格式。

在这里插入图片描述

​ 比如第一个的请求网址为:https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=汽车&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=汽车&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&pn=90&rn=30&gsm=5a&1545483113251=

​ 第二个的网址:https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=汽车&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=汽车&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&pn=120&rn=30&gsm=78&1545483113861=

​ 通过对比两个网址可以发现只有pn和gsm的值发生了改变。pn代表的是页数,rn代表每页显示的图片数量。gsm是pn 的 16位显示。

​ 至于最后面的13位数字,因为默认情况下python的时间戳是以秒为单位输出的float ,这里通过把秒转换毫秒,然后四舍五入的方法获得13位的时间戳:这里在设置请求的url可以不用写进去。

import  time
print(int(round(time.time(
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值