python3.X 爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫遇到的ip代理的总结四( pycharm运行,代码篇)

这里面主要讲解的是两个大方向的代码:

一个是selenium+chrome中的ip代理:

      

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
browser = webdriver.Chrome(chrome_options = chromeOptions)
 

  

一个是requests中的ip代理:

import requests
proxies = {
    "https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

 

个人想法:

        这里面我想说一下我个人对代理的使用方式是利用第三方提供的api接口,进行每次下载100个IP代理,然后放在本地的文件中,每次使用之前对其进行随机的选取,然后对这个ip代理的池子进行定期的维护,我这边采用的方式是一个小时进行覆盖更新这个本地文件(with open(" text ","a",encoding="utf-8") as f: f.write(......)) ,这里面不建议直接进行接口的对接,容易出现:接口过载的现象,当你爬虫爬取的量比较大的时候。

        这个里面还有一个我认为比较的坑就是当你得请求requests中url是https 还是http 的类型时候,你所用的代理其实是不能全部写(这里注意proxies里面的参数,不是http 跟https全部都写,看你的网站是https 就写http的ip代理,反之就用https的IP代理,不要全都写上去)

import requests
proxies = {
    "https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

         最后再讲一下selenium中的ip代理的加载方式就是

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")   这里面能够变动就是后面的IP地址,访问的url是http你就去找http代理,是https你就去找https代理,但是前面的chromeOptions.add_argument("--proxy-server=http://.......")是不变的

综上只是把这些看法讲出来 如有问题欢迎联系本人微信随时交流

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值