python爬虫精选09集(IP代理、requests.post参数、破解有道词典)

一.IP代理

1.常见代理平台

  • 西刺代理、快代理、芝麻代理、全网代理、阿布云代理、代理精灵

2.作用及理解

  • 隐藏自身真实IP,避免被封
  • 请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫。
  • 代理服务器是经常变化的,使用代理服务器时传一个参数:proxy,是一个字典的形式。

3.代理IP种类

  • 普通代理
    Web端知道有人通过此代理IP访问,但不知用户真实IP
  • 透明代理
    Web能看到用户真实IP,也能看到代理IP
  • 高匿代理
    Web端只能看到代理IP

4.实现方法

4.1普通代理思路

1】获取代理IP网站
   西刺代理、快代理、全网代理、代理精灵、阿布云、芝麻代理... ...2】参数类型
   proxies = {
    '协议':'协议://IP:端口号' }
   proxies = {
   
    	'http':'http://IP:端口号',
    	'https':'https://IP:端口号',
   }

4.2普通代理

# 使用免费普通代理IP访问测试网站: http://httpbin.org/get
import requests

url = 'http://httpbin.org/get'
headers = {
   'User-Agent':'Mozilla/5.0'}
# 定义代理,在代理IP网站中查找免费代理IP
proxies = {
   
    'http':'http://112.85.164.220:9999',
    'https':'https://112.85.164.220:9999'
}
html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)

4.3私密代理+独享代理

1】语法结构
   proxies = {
    '协议':'协议://用户名:密码@IP:端口号' }2】示例
   proxies = {
   
	  'http':'http://用户名:密码@IP:端口号',
      'https':'https://用户名:密码@IP:端口号',
   }

4.4私密代理+独享代理 - 示例代码

import requests
url = 'http://httpbin.org/get'
proxies = {
   
    'http': 'http://309435365:[email protected]:16816',
    'https':'https://309435365:[email protected]:16816',
}
headers = {
   
    
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值