Python爬虫
spadeπ
山科大大二在校闲人一枚
展开
-
Python爬虫学习记录(三)requests模块巩固深入与处理post请求
本次案例是爬取了百度翻译在文本框录入内容后动态显示出的翻译内容。由下图可以看出,当我们在百度翻译文本框中输入单词时会发现网页正在进行局部的页面刷新,实现机制便是Ajax异步请求。 而抓包工具中network数据包XHR类型对应Ajax请求的数据包,通过分析找到名为sug的数据包里的参数为dog->正是对应了文本框中我们输入的内容,再通过查看可知该请求为post请求,参数只有一个,为kw,响应数据为一组json数据。 如此便引出了这次要处理的问题: 如何用request模块发起post请求 如何处原创 2021-04-11 19:58:27 · 201 阅读 · 0 评论 -
Python爬虫学习记录(二)requests模块巩固深入与UA反反爬
UA检测与UA伪装 UA-> User-Agent (请求载体的身份标识) **UA检测:**门户网站的服务器会检测对应请求的载体身份标识。如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求;但是如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务端就很有可能拒绝该次请求。 **UA伪装:**让爬虫对应的请求载体身份标识伪装成某一款浏览器 巩固案例一: 爬取搜狗指定词条的对应搜索结果页面(简易的网页采集器) 要实现的操作有UA伪装和动态处理原创 2021-04-10 06:38:25 · 407 阅读 · 4 评论 -
Python爬虫学习记录(一)requests模块的使用
`#request模块 ‘’’ 环境安装: pip install requests 基本介绍: request模块是基于模拟浏览器向网页发送请求的模块,相对于urlib模块具有功能强大、方便便捷、效率高效的特点。 编码的基本流程: - 指定url - 发送请求 - 获取响应数据 - 持久化存储 实战编码: - 爬取百度首页的数据 ‘’’ import requests if name == “main”: #step1 指定url url = ‘https://www.baidu.com/’ #step2原创 2021-04-09 22:00:21 · 141 阅读 · 2 评论