简单使用requests爬取动态数据

最新推荐文章于 2023-05-23 19:32:30 发布

小土豆豆丁

最新推荐文章于 2023-05-23 19:32:30 发布

阅读量3.7k

点赞数 2

分类专栏：爬虫实践文章标签：爬虫 python

本文链接：https://blog.csdn.net/Oopsl/article/details/120360064

版权

爬虫实践专栏收录该内容

2 篇文章 1 订阅

订阅专栏

异常的访问请求：

当我们爬取网页的时候，网站后台检测出该请求不是通过浏览器发起的，而是通过爬虫程序发起的。
网站后台通过请求中的User-Agent判定
User-Agent:请求载体的身份标识
什么是请求载体？浏览器，爬虫程序
这里的反爬机制：UA检测
反反爬机制：UA伪装

动态数据的捕获

通过requests模块进行数据抓取无法每次都实现可见即可得
有些数据不是通过浏览器地址栏中的url请求到的数据，而是其他请求请求到的数据。这些通过其他请求请求到的数据就是动态加载的数据
检测网页中是否存在动态加载数据：基于抓包工具进行局部搜索
捕获：基于抓包工具进行全局搜索，定位到动态加载数据的数包，从数据包中可以提取出：请求的url，请求方式，请求携带的参数，看到响应数据。

参数动态化

将携带的动态参数以键值对的形式封装到一个字典中
将字典作用到get方法中的params参数中即可(或post方法中的data)
将原始携带参数的url中将携带的参数删除
然鹅，若动态数据无法抓取，可能是通过加密程序加密的

动态加载数据

一般会传参之后会得到一串Json数据，需要requests.get/post(url…).json()，将其变换为列表

简单案例

http://scxk.nmpa.gov.cn:81/xk/
进行化妆品许可证信息的爬取
本页下方的数据都是动态加载数据，也就是说直接使用requests.get().text是无法捕获的，下面简单看一下

在这里插入图片描述

最后直接放代码吧

import requests

url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
for i in range(1,6):
    page_num = i
    print(f"——————第{page_num}页——————")
    data = {
    'on': 'true',
    'page': str(page_num),
    'pageSize': '15',
    'productName':'' ,
    'conditionType': '1',
    'applyname': '',
    'applysn': ''
    }
    response = requests.post(url=url, headers = headers, data=data)
    page_info = response.json()

    for dic in page_info["list"]:
        name = dic['EPS_NAME']
        num = dic['PRODUCT_SN']
        mechanism = dic['QF_MANAGER_NAME']
        print(f'公司名：{name},许可证编号：{num},管理结构:{mechanism}')