常见的python爬虫

本文详细介绍了Python爬虫的基本流程,包括确定目标网站、寻找接口、使用requests库处理请求、利用selenium模拟浏览器以及处理字体反爬。同时,讲解了如何在requests中设置代理IP和实现自动登录,以及在selenium中应用cookie进行自动登录。字体反爬部分,介绍了如何解析乱码字体并匹配字体编码集。
摘要由CSDN通过智能技术生成

常见的python爬虫

爬虫流程

第一步:确定爬虫对象(爬那个网页的数据);

第二步:找接口;

​ 1)有接口:直接对借口发送请求 -> 成功(直接json解析);

​ 2)没有接口,进入下一步;

第三步:用requests直接对网页地址发送请求;

​ 1)请求成功 -> 解析数据(bs4lxml);

​ 2)请求失败 -> 尝试添加user-agent和cookie,成功就解析,失败下一步;

第四步:用selenium打开网页,获取网页内容

​ 1)请求成功 -> 解析数据(bs4lxml);

​ 2)请求失败 -> 找失败原因,尝试解决失败的问题 -> 问题无法解决下一步

第五步:放弃,换目标。

requests使用代理ip

1.使用代理:给参数proxies赋值

{‘https’;‘ip:端口’}

1)使用固定的代理ip

response = requests.get(url, headers=headers, proxies={'https': '端口号'})

2)通过请求获取代理ip的地址动态获取最新的代理
ip = requests.get('代理服务器的端口网页').text.strip()
response = requests.get(url, headers=headers, proxies={'https': ip})

selenium使用代理ip

--proxy-server=http://IP:端口号ip端口是httpsip

options.add_argument('--proxy-server=http://122.6.202.214:4510')

requests自动登录

第一步:在谷歌浏览器中打开网页完成登录操作,然后刷新网页;

第二步:打开当前页面的检测,在network的all选项下,找到当前页面的请求,获取Request Headers中的cookie值;

第三步:在用requests方式请求的时候给headers赋值,在headrest中添加cookie对应的键值对。

selenium自动登录

1.获取cookie

第一步:创建浏览器对象,打开需要自动登录的网站;

第二步:手动完成登录操作;

第三步:获取cookie并且保存到本地文件中;

cookie = 浏览器对象.get_cookie()

open(‘files/cookie.txt’, ‘w’, encoding='utf-8').write(str(cookies))

2.使用cookie

第一步:创建浏览器对象打开网页;

第二步:添加本地保存的cookie信息;

cookie_list = eval(open(‘files/cookie.txt’, encoding='utf-8').read())`
for cookie in cookie_list:
     浏览器对象.add_cookie(cookie)```

第三步:重新打开网页;

第四步:进行后续其他操作

字体反爬

第一步:在目标网页上检查,选Notwork->All->重新刷新;

第二步:看Name下是否有结果,依次单击Name下面的选项,找woff或者woff2的文件;

第三步:找到下载,https://kekee000.github.io/fonteditor/这个网页中打开,就可以看见字体编码集;

第四步:将乱码字体和字体编码集解析出需要的字体。

到下载,https://kekee000.github.io/fonteditor/这个网页中打开,就可以看见字体编码集;

第四步:将乱码字体和字体编码集解析出需要的字体。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值