爬虫 xpath的安装

Confused person

已于 2022-06-26 16:13:21 修改

阅读量4.7k

点赞数 3

文章标签：大数据爬虫 python

于 2022-06-26 16:08:10 首次发布

本文链接：https://blog.csdn.net/Confused_DMW/article/details/125470538

版权

1. 安装

xpath可以理解为获取网页源码中的部分内容的一种方式

安装分为两个部分，一个为 chrome 插件、一个是xpath库

1.1 下载谷歌浏览器的xpath插件

1、目前需要进入谷歌浏览器的商店页面，但我们找不到，而且不会科学上网，所以我们选择镜像网站

https://chrome.zzzmh.cn/#/index 极简插件

2、下载好插件之后，我们需要对其进行解压，点击进入解压文件后，然后将crx后缀的文件改为zip后缀

3、进入扩展程序

4、进入后打开右上角的开发者模式

5、将我们之前改好名字的zip文件拖入浏览器中，将xpath的开关打开

注意：这里如果报错误

Manifest version 2 is deprecated, and support will be removed in 2023. See

可以不用理会，没有影响的，错误原因是Manifest V2 Chrome 扩展程序将于 2023 年停止工作，目前是能用的

6、将浏览器重启

7、在谷歌浏览器的右上角有个像拼图块的图标点开，可以看到安装的插件，按习惯将其固定

8、点击后页面顶部会出现黑色的边框，这样就是安装成功了

ps. 注意一点，你在新标签页点击是无效的

1.2 安装 xpath库

1、我们需要进入当前我们这个项目的Scripts目录打开cmd

查看目录方法：在pycharm中 file -> setting -> Project: exercise -> Project Interpreter 查看其中的 Project Interpreter 中的地址

2、进入cmd进入该目录

3、安装

pip install lxml -i https://pypi.douban.com/simple
ps. 嫌慢可以在 lxml 后加上 -i https://pypi.douban.com/simple 
    使用国内源下载（这个来源是豆瓣）

4、验证是否下载成功，可以打开你的项目，下面会出现进度条在加载你新下的包，新建一个文件写上

from lxml import etree

没有报错就算完成

ps. 如果你的cmd页面显示了
但你操作第四步的时候报错可以先等待下方进度条加载完成
如果加载完成后file -> setting -> Project: exercise -> Project Interpreter 中没有lxml

那恭喜你安错位置了，如果有，且进度条也加载完了还是报错，那么关掉项目重新打开就行了

xpath的语法可以去查看

Xpath 语法 | 菜鸟教程