目录
一、题目描述
爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据
二、步骤
1、查看响应URL获取到的内容
最笨的办法:通过代码去测定获取到的URL内容
①指定URL
# step 1:指定URL
url = 'https://m.sogou.com/'
②获取请求
# step 2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
③获得响应数据
# step 3:获取响应数据,text返回的是字符串形式的响应数据
page_test = response.text
print(page_test)
④持久化处理(存储到文件中)
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_test)
print('爬取数据结束')
2、内容判断
通过对获取的信息的与通过浏览器得到的页面相对比发现有不同之处,不同之处在于获取的信息中不包括企业的信息(因为企业的信息一定不是通过URL的方式得到的,而是其他方式——ajax动态请求)