爬虫学习之requests基础模块

最新推荐文章于 2024-07-12 16:16:27 发布

just a little

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量118

点赞数

分类专栏：网络爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/sy0527sy/article/details/117171015

版权

网络爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

requests基础模块学习
在这里插入图片描述
request模块的编码流程

–指定url
–发起请求
–获取响应数据
–持久化存储

实战巩固：
–需求：爬取搜狗指定词条对应的搜索结果页面
–UA检测
–UA伪装
–需求：破解百度翻译
– post请求（携带了参数）
–响应数据是一组json数据
–需求：爬取豆瓣电影分类排行榜
–作业：爬取肯德基餐厅查询
–需求：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据
http://scxk.nmpa.gov.cn:81/xk/
–动态加载数据
–首页中对应的企业信息数据是通过Ajax动态请求到的
http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=bb0e5d735231459a8e7441c31f3ca9d9
http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=354ae4f7fa9d4c139da129a26a65d443
通过对详情页的观察发现
–url的域名都是一样，只有携带的id不一样
–id值可以从首页id获取
–详情页的数据也是动态加载出来的
http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById
观察后发现：
所以post请求的url都是一样的，只有参数id值是不同的。
如果我么可以批量获取多家企业的id后，就可以将id和url形成一个完整的详情页数据的Ajax请求的url
数据解析：
聚焦爬虫
正则
bs4
xpath

just a little

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
爬虫学习之requests基础模块

requests基础模块学习request模块的编码流程–指定url–发起请求–获取响应数据–持久化存储实战巩固：–需求：爬取搜狗指定词条对应的搜索结果页面–UA检测–UA伪装–需求：破解百度翻译– post请求（携带了参数）–响应数据是一组json数据–需求：爬取豆瓣电影分类排行榜–作业：爬取肯德基餐厅查询–需求：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据http://scxk.nmpa.gov.cn:81/xk/–动态加载数据–首页中对应
复制链接

扫一扫