常见的python爬虫

皋杲

已于 2023-01-19 13:20:20 修改

阅读量932

点赞数

文章标签： python 学习爬虫

于 2022-03-21 20:48:59 首次发布

本文链接：https://blog.csdn.net/Gao376560938/article/details/123645729

版权

本文详细介绍了Python爬虫的基本流程，包括确定目标网站、寻找接口、使用requests库处理请求、利用selenium模拟浏览器以及处理字体反爬。同时，讲解了如何在requests中设置代理IP和实现自动登录，以及在selenium中应用cookie进行自动登录。字体反爬部分，介绍了如何解析乱码字体并匹配字体编码集。

摘要由CSDN通过智能技术生成

常见的python爬虫

爬虫流程

第一步：确定爬虫对象（爬那个网页的数据）；

第二步：找接口；

1）有接口：直接对借口发送请求 -> 成功（直接json解析）；

2）没有接口，进入下一步；

第三步：用requests直接对网页地址发送请求；

1）请求成功 -> 解析数据（bs4、lxml）；

2）请求失败 -> 尝试添加user-agent和cookie，成功就解析，失败下一步；

第四步：用selenium打开网页，获取网页内容

1）请求成功 -> 解析数据（bs4、lxml）；

2）请求失败 -> 找失败原因，尝试解决失败的问题 -> 问题无法解决下一步

第五步：放弃，换目标。

`requests`使用代理`ip`

1.使用代理：给参数proxies赋值

{‘https’;‘ip:端口’}

1）使用固定的代理ip

response = requests.get(url, headers=headers, proxies={'https': '端口号'})

2）通过请求获取代理ip的地址动态获取最新的代理
ip = requests.get('代理服务器的端口网页').text.strip()
response = requests.get(url, headers=headers, proxies={'https': ip})

selenium使用代理`ip`

--proxy-server=http://IP:端口号 （ip端口是https的ip）

options.add_argument('--proxy-server=http://122.6.202.214:4510')

`requests`自动登录

第一步：在谷歌浏览器中打开网页完成登录操作，然后刷新网页；

第二步：打开当前页面的检测，在network的all选项下，找到当前页面的请求，获取Request Headers中的cookie值；

第三步：在用requests方式请求的时候给headers赋值，在headrest中添加cookie对应的键值对。

`selenium`自动登录

1.获取cookie

第一步：创建浏览器对象，打开需要自动登录的网站；

第二步：手动完成登录操作；

第三步：获取cookie并且保存到本地文件中；

cookie = 浏览器对象.get_cookie()

open(‘files/cookie.txt’, ‘w’, encoding='utf-8').write(str(cookies))

2.使用cookie

第一步：创建浏览器对象打开网页；

第二步：添加本地保存的cookie信息；

cookie_list = eval(open(‘files/cookie.txt’, encoding='utf-8').read())`
for cookie in cookie_list:
     浏览器对象.add_cookie(cookie)```

第三步：重新打开网页；

第四步：进行后续其他操作

字体反爬

第一步：在目标网页上检查，选Notwork->All->重新刷新；

第二步：看Name下是否有结果，依次单击Name下面的选项，找woff或者woff2的文件；

第三步：找到下载，https://kekee000.github.io/fonteditor/这个网页中打开，就可以看见字体编码集；

第四步：将乱码字体和字体编码集解析出需要的字体。

到下载，https://kekee000.github.io/fonteditor/这个网页中打开，就可以看见字体编码集；

第四步：将乱码字体和字体编码集解析出需要的字体。

皋杲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

常见的python爬虫

常见的python爬虫

爬虫流程

requests使用代理ip

selenium使用代理ip

requests自动登录

selenium自动登录

字体反爬

`requests`使用代理`ip`

selenium使用代理`ip`

`requests`自动登录

`selenium`自动登录