requests基础模块学习
request模块的编码流程
–指定url
–发起请求
–获取响应数据
–持久化存储
实战巩固:
–需求:爬取搜狗指定词条对应的搜索结果页面
–UA检测
–UA伪装
–需求:破解百度翻译
– post请求(携带了参数)
–响应数据是一组json数据
–需求:爬取豆瓣电影分类排行榜
–作业:爬取肯德基餐厅查询
–需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据
http://scxk.nmpa.gov.cn:81/xk/
–动态加载数据
–首页中对应的企业信息数据是通过Ajax动态请求到的
http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=bb0e5d735231459a8e7441c31f3ca9d9
http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=354ae4f7fa9d4c139da129a26a65d443
通过对详情页的观察发现
–url的域名都是一样,只有携带的id不一样
–id值可以从首页id获取
–详情页的数据也是动态加载出来的
http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById
观察后发现:
所以post请求的url都是一样的,只有参数id值是不同的。
如果我么可以批量获取多家企业的id后,就可以将id和url形成一个完整的详情页数据的Ajax请求的url
数据解析:
聚焦爬虫
正则
bs4
xpath