selenium爬虫

1. selenium基础

selenium部分可以去看我写的selenium基础部分,由于链接太多了这里就不发出来了。

代理ip:

有时候频繁爬取一些网页。服务器发现你是爬虫后会封掉你的ip地址。这时候我们可以更改代理ip。更改代理ip不同的浏览器有不同的实现方式。这里使用我最常用的Chrome浏览器为例。

 
  1. from selenium import webdriver
  2. chromeOptions = webdriver.ChromeOptions()
  3.  
  4. # 设置代理
  5. chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
  6. # 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
  7. driver = webdriver.Chrome(chrome_options = chromeOptions)
  8.  
  9. # 查看本机ip,查看代理是否起作用
  10. driver.get("http://httpbin.org/ip")
  11. print(driver.page_source)
  12.  
  13. # 退出,清除浏览器缓存
  14. driver.quit()

注意事项: 

第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。

第二,选择速度较快的代理IP。因为selenium爬虫

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值