爬取国家药品监督管理局中基于中华人民共和国化妆品许可证相关数据http://scxk.nmpa.gov.cn:81/xk/
- 动态加载数据
- 首页中对应的企业信息数据是通过Ajax动态请求到的
- 通过对详情页URL的观察发现:
- URL的域名都是一样的,只有携带的参数(id)不一样
- id值可以从首页对应的Ajax请求到json串中获取
- 域名和id值拼接成一个完整的企业对应的详情页的URL
- 详情页的企业详情数据也是Ajax动态加载出来的
- 观察后发现:
- 所有的post请求的URL都是一样的,只有参数id值是不同
- 如果我们可以批量获取多家企业的id后,就可以将id和URL形成一个完整的详情页对应对应详情数据的Ajax请求的URL
import requests
import json
# 批量获取不同企业的id值
url = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"
# 参数的封装
data = {
'on':'true',
'page':'1'