python爬虫精选09集(IP代理、requests.post参数、破解有道词典)
一.IP代理
1.常见代理平台
- 西刺代理、快代理、芝麻代理、全网代理、阿布云代理、代理精灵
2.作用及理解
- 隐藏自身真实IP,避免被封
- 请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫。
- 代理服务器是经常变化的,使用代理服务器时传一个参数:proxy,是一个字典的形式。
3.代理IP种类
- 普通代理
Web端知道有人通过此代理IP访问,但不知用户真实IP
- 透明代理
Web能看到用户真实IP,也能看到代理IP
- 高匿代理
Web端只能看到代理IP
4.实现方法
4.1普通代理思路
【1】获取代理IP网站
西刺代理、快代理、全网代理、代理精灵、阿布云、芝麻代理... ...
【2】参数类型
proxies = {
'协议':'协议://IP:端口号' }
proxies = {
'http':'http://IP:端口号',
'https':'https://IP:端口号',
}
4.2普通代理
import requests
url = 'http://httpbin.org/get'
headers = {
'User-Agent':'Mozilla/5.0'}
proxies = {
'http':'http://112.85.164.220:9999',
'https':'https://112.85.164.220:9999'
}
html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)
4.3私密代理+独享代理
【1】语法结构
proxies = {
'协议':'协议://用户名:密码@IP:端口号' }
【2】示例
proxies = {
'http':'http://用户名:密码@IP:端口号',
'https':'https://用户名:密码@IP:端口号',
}
4.4私密代理+独享代理 - 示例代码
import requests
url = 'http://httpbin.org/get'
proxies = {
'http': 'http://309435365:[email protected]:16816',
'https':'https://309435365:[email protected]:16816',
}
headers = {