爬虫实例——化妆品相关数据(多页)

本文详细介绍了如何爬取国家药品监督管理总局的化妆品生产许可证数据。通过查看响应URL、验证动态请求、使用抓包工具,揭示了数据的动态加载方式。在抓包工具中分析请求包内容,发现数据以JSON形式返回,并探讨了详情页URL的规律。虽然存在反扒机制,但分享的思路和逻辑适用于类似爬虫项目。
摘要由CSDN通过智能技术生成

目录

一、题目描述

二、步骤

1、查看响应URL获取到的内容

                ①指定URL

                ②获取请求

                ③获得响应数据

                ④持久化处理(存储到文件中)

 2、内容判断

3、验证动态请求(抓包工具)

                ①打开抓包工具(页面右键的检查)

                ②找到对应的数据包(对比URL)

                ③对比响应数据

                ④结论

4、动态加载数据        

                ①判断其请求方式

                ②查看求请求包内容

                ③查看resposne返回的内容

                ④观察详情页的URL的规律

五、源码

六、总结


一、题目描述

爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据

二、步骤

1、查看响应URL获取到的内容

        最笨的办法:通过代码去测定获取到的URL内容

                ①指定URL

 # step 1:指定URL
    url = 'https://m.sogou.com/'

                ②获取请求

# step 2:发起请求
    # get方法会返回一个响应对象
    response = requests.get(url=url)

                ③获得响应数据

 # step 3:获取响应数据,text返回的是字符串形式的响应数据
    page_test = response.text
    print(page_test)

                ④持久化处理(存储到文件中)

    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_test)
    print('爬取数据结束')

 2、内容判断

        通过对获取的信息的与通过浏览器得到的页面相对比发现有不同之处,不同之处在于获取的信息中不包括企业的信息(因为企业的信息一定不是通过URL的方式得到的,而是其他方式——ajax动态请求)

3、验证动态请求(抓包工具)

                ①打开抓包工具(页面右键的检查)

                ②找到对应的数据包(对比URL)

                ③对比响应数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值