爬虫实例——化妆品相关数据（多页）

最新推荐文章于 2023-02-23 16:18:32 发布

Begin to change

最新推荐文章于 2023-02-23 16:18:32 发布

阅读量1.1k

点赞数

分类专栏： # 爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/qq_41404557/article/details/124869764

版权

本文详细介绍了如何爬取国家药品监督管理总局的化妆品生产许可证数据。通过查看响应URL、验证动态请求、使用抓包工具，揭示了数据的动态加载方式。在抓包工具中分析请求包内容，发现数据以JSON形式返回，并探讨了详情页URL的规律。虽然存在反扒机制，但分享的思路和逻辑适用于类似爬虫项目。

摘要由CSDN通过智能技术生成

一、题目描述

爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据

二、步骤

1、查看响应URL获取到的内容

最笨的办法：通过代码去测定获取到的URL内容

①指定URL

 # step 1:指定URL
    url = 'https://m.sogou.com/'

②获取请求

# step 2:发起请求
    # get方法会返回一个响应对象
    response = requests.get(url=url)

③获得响应数据

 # step 3:获取响应数据,text返回的是字符串形式的响应数据
    page_test = response.text
    print(page_test)

④持久化处理（存储到文件中）

    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_test)
    print('爬取数据结束')

2、内容判断

通过对获取的信息的与通过浏览器得到的页面相对比发现有不同之处，不同之处在于获取的信息中不包括企业的信息（因为企业的信息一定不是通过URL的方式得到的，而是其他方式——ajax动态请求）

3、验证动态请求（抓包工具）

①打开抓包工具（页面右键的检查）

②找到对应的数据包（对比URL）

③对比响应数据

最低0.47元/天解锁文章

Begin to change

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录