python3.X 爬虫针对拉钩，直聘，大街等招聘网站的简历爬虫遇到的ip代理的总结四（ pycharm运行，代码篇）

最新推荐文章于 2024-05-09 11:02:22 发布

地主家的小兵将

最新推荐文章于 2024-05-09 11:02:22 发布

阅读量2.1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/bingheshidai_1234/article/details/83549393

版权

python 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

这里面主要讲解的是两个大方向的代码：

一个是selenium+chrome中的ip代理：

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
browser = webdriver.Chrome(chrome_options = chromeOptions)

一个是requests中的ip代理：

import requests
proxies = {
"https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

个人想法：

这里面我想说一下我个人对代理的使用方式是利用第三方提供的api接口，进行每次下载100个IP代理，然后放在本地的文件中，每次使用之前对其进行随机的选取，然后对这个ip代理的池子进行定期的维护，我这边采用的方式是一个小时进行覆盖更新这个本地文件（with open(" text ","a",encoding="utf-8") as f: f.write(......)） ,这里面不建议直接进行接口的对接，容易出现：接口过载的现象，当你爬虫爬取的量比较大的时候。

这个里面还有一个我认为比较的坑就是当你得请求requests中url是https 还是http 的类型时候，你所用的代理其实是不能全部写（这里注意proxies里面的参数，不是http 跟https全部都写，看你的网站是https 就写http的ip代理，反之就用https的IP代理，不要全都写上去）

import requests
proxies = {
"https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

最后再讲一下selenium中的ip代理的加载方式就是

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") 这里面能够变动就是后面的IP地址，访问的url是http你就去找http代理，是https你就去找https代理，但是前面的chromeOptions.add_argument("--proxy-server=http://......."）是不变的

综上只是把这些看法讲出来如有问题欢迎联系本人微信随时交流

地主家的小兵将

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python3.X 爬虫针对拉钩，直聘，大街等招聘网站的简历爬虫遇到的ip代理的总结四（ pycharm运行，代码篇）

这里面主要讲解的是两个大方向的代码：一个是selenium+chrome中的ip代理： from selenium import webdriverchromeOptions = webdriver.ChromeOptions()# 设置代理chromeOptions.add_argument("--proxy-server=http://202.20.16.82:1...
复制链接

扫一扫