python爬虫基础

最新推荐文章于 2023-06-09 09:58:38 发布

振裕

最新推荐文章于 2023-06-09 09:58:38 发布

阅读量550

点赞数 2

分类专栏： Python 数据分析文章标签：爬虫 selenium chrome python

本文链接：https://blog.csdn.net/suzyu12345/article/details/81275238

版权

1. 前言

我不是专业爬虫工程师，只是业余爬点数据做做分析和挖掘工作，所以没有使用到复杂的反爬虫和线程池等技术，也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。
这里简单记录下浏览器操作，源码读取，以及数据提取的方法，够用了。

2. selenium操作chrome浏览器

2.1. 安装chrome浏览器和浏览器驱动

首先你需要安装chrome浏览器，以及下载对应的chromedriver.exe驱动，并将chromedriver.exe驱动目录添加至path环境变量，简单的做法是将chromedriver.exe驱动放到python的安装目录即可。
chromedriver驱动和chrome的版本对应关系在每个chromedriver驱动下载目录的notes.txt文件都有说明，chromedriver驱动下载网址是：http://chromedriver.storage.googleapis.com

测试安装情况：
如果能正常打开百度说明安装成功

from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

3. selenium使用xpath定位元素

3.1. 提取数据

使用xpath定位元素是我看到的最简单也是最快的方法，没有之一，方法是，在chrome浏览器打开某个页面后，将鼠标放到某个元素（文字，链接，图片等），点击鼠标右键，选择检查，即可得到元素所在的html地址。然后我们在右键选择copy xpath即可得到元素的xpath。
得到xpath有什么用呢？太有用了，有了xpath，可以让程序获取xpath的文本信息，图片信息，超链接信息，进一步，模拟鼠标点击。

# 第1步，打开百度网页
from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

# 第2步，获取xpath地址
# 通过刚才的方法，我们已经得到`新闻`的xpath
xpath=

最低0.47元/天解锁文章

振裕

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
python爬虫基础

1. 前言我不是专业爬虫工程师，只是业余爬点数据做做分析和挖掘工作，所以没有使用到复杂的反爬虫和线程池等技术，也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。这里简单记录下浏览器操作，源码读取，以及数据提取的方法，够用了。2. selenium操作chrome浏览器2.1. 安装chrome浏览器和浏览器驱动首先你需要安装chrome浏览...
复制链接

扫一扫