爬虫工具
文章平均质量分 61
饮月九尾
这个作者很懒,什么都没留下…
展开
-
爬虫工具之selenium(五)-建立代理IP池
主要思路是分两步:第一步判断代理IP是否有效,第二步爬取免费网站代理IP,第三步循环判断爬取的代理IP是否有效第一步:判断代理IP是否有效proxies:代理,分为http与https两种,爬取不同网站时需要选用不同类型的proxies,只有当proxies类型与想访问的网站类型相同时代理ip才会起作用,否则request请求使用的是你真实的ip地址,参考代理IP中的 proxies 介绍及使用re.findall():返回string中所有与pattern相匹配的全部字串,返回形式为数据,详细用法参原创 2021-03-18 10:09:09 · 1853 阅读 · 2 评论 -
爬虫工具之selenium(四)-Chrome Options参数
这一章学习Chrome Options,主要参考Selenium笔记(2)Chrome启动选项from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 实例化一个启动参数对象chrome_options = Options()# 使用add_argument()方法添加启动参数chrome_options.add_argument('--window-size=1366,768')原创 2021-03-17 11:01:12 · 11364 阅读 · 3 评论 -
爬虫工具之selenium(三)
常用浏览器打开网址:from selenium import webdriver#启动谷歌浏览器browser=webdriver.Chrome()browser.get('http://www.baidu.com/')#启动火狐浏览器browser=webdriver.Firefox()browser.get('https://www.douban.com')#启动IE浏览器browser=webdriver.Ie()browser.get('http://www.taobao.c原创 2021-03-16 17:33:38 · 130 阅读 · 0 评论 -
爬虫工具之selenium(二)
进行代码调试时:from selenium import webdriverc=webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chrome.exe') #获取chrome浏览器的驱动,并启动Chrome浏览器c.get('https://www.baidu.com')#打开百度print('成功')出现错误信息:只能打开chrome浏览器,但无法打开指定的网址1.检查host文件原创 2021-03-16 16:50:32 · 220 阅读 · 1 评论 -
爬虫工具之selenium(一)
下载selenium-3.141.0-py2.py3-none-any官方文档前期准备:需要先下载一个chormedriver:http://npm.taobao.org/mirrors/chromedriver/否则会出现类似如下报错信息:selenium.common.exceptions.WebDriverException: Message: Service C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chr原创 2021-03-13 21:40:23 · 354 阅读 · 0 评论