《Python爬取求职网第一天》——浏览器自动化测试框架Selenium

最新推荐文章于 2024-08-29 19:30:55 发布

何壹时

最新推荐文章于 2024-08-29 19:30:55 发布

阅读量571

点赞数 7

分类专栏： Python实战文章标签： python selenium chrome

本文链接：https://blog.csdn.net/huisoul/article/details/116013658

版权

Python实战专栏收录该内容

8 篇文章 6 订阅

订阅专栏

1、Selenium介绍

简单来说吧，Selenium可以控制你的浏览器，模仿人浏览网页，从而获取数据，自动操作等，也正因为能自动打开浏览器，不需要判断网页是静态还是动态的，数据加载的方式等等，所以比其他方法获取网页数据要简单得多。缺点嘛…因为要打开浏览器并控制它，所以和我们以前学的爬虫相比，它占用的资源会更多，爬取数据的效率也会有所降低，不过至少比我们手动操作还是快很多的。

2、安装Selenium

	pip install selenium

selenium还需要安装相应浏览器的驱动才能控制浏览器，我以谷歌浏览器为例（建议大家使用谷歌）说下如何在浏览器中安装

先检查浏览器的版本号
下载插件

我的谷歌浏览器版本号为86.0.4240.183，然后我们打开https://npm.taobao.org/mirrors/chromedriver这个网站下载相应或者接近的版本，将下载好的 chromedriver_win32.zip 解压缩得到 chromedriver.exe，将它放到 Python 安装目录的 Scripts 文件夹里。
Tips：我们在命令行里输入 where python 命令并回车即可找到 Python 所在目录，如果使用的是Anaconda，则将其放到安装目录中的 Scripts文件夹里

3、使用selenium打开浏览器

		from selenium import webdriver		#从Selenium导入webdriver（驱动）	
		browser = webdriver.Chrome()		#选择谷歌浏览器打开

4、获取网页源代码

既然都打开浏览器，我们就试着获取一下代码

 	 browser = webdriver.Chrome()	#选择谷歌浏览器打开
	 browser.get('https://weibo.com/') 	#打开微博网页
	 print(browser.page_source)	 #打印出网页源代码
	 browser.quit() 	#关闭浏览器

下一次我将介绍如何用BeautifulSoup库处理通过selenium获取的数据。本次分享就到这，谢谢大家！

何壹时

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Python爬取求职网第一天》——浏览器自动化测试框架Selenium

Python浏览器自动化测试框架Selenium1、Selenium介绍简单来说吧，Selenium可以控制你的浏览器，模仿人浏览网页，从而获取数据，自动操作等，也正因为能自动打开浏览器，不需要判断网页是静态还是动态的，数据加载的方式等等，所以比其他方法获取网页数据要简单得多。记住强大之处就好，缺点嘛就不说了…2、安装Seleniumpip install seleniumselenium还需要安装相应浏览器的驱动才能控制浏览器，我以谷歌浏览器为例（建议大家使用谷歌）说下如何在浏览器中安装先
复制链接

扫一扫