1. selenium基础
selenium部分可以去看我写的selenium基础部分,由于链接太多了这里就不发出来了。
代理ip:
有时候频繁爬取一些网页。服务器发现你是爬虫后会封掉你的ip地址。这时候我们可以更改代理ip。更改代理ip不同的浏览器有不同的实现方式。这里使用我最常用的Chrome浏览器为例。
- from selenium import webdriver
- chromeOptions = webdriver.ChromeOptions()
- # 设置代理
- chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
- # 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
- driver = webdriver.Chrome(chrome_options = chromeOptions)
- # 查看本机ip,查看代理是否起作用
- driver.get("http://httpbin.org/ip")
- print(driver.page_source)
- # 退出,清除浏览器缓存
- driver.quit()
注意事项:
第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。
第二,选择速度较快的代理IP。因为selenium爬虫