爬虫 xpath的安装

 1. 安装

        xpath可以理解为获取网页源码中的部分内容的一种方式

        安装分为两个部分,一个为 chrome 插件、一个是xpath库

  1.1 下载谷歌浏览器的xpath插件

        1、目前需要进入 谷歌浏览器 的商店页面,但我们找不到,而且不会科学上网,所以我们选择镜像网站

https://chrome.zzzmh.cn/#/index 极简插件

        2、下载好插件之后,我们需要对其进行解压,点击进入解压文件后,然后将crx后缀的文件改为zip后缀

        3、进入扩展程序

         4、进入后打开右上角的开发者模式

         5、将我们之前改好名字的zip文件拖入浏览器中,将xpath的开关打开

 注意:这里如果报错误

        Manifest version 2 is deprecated, and support will be removed in 2023. See  

可以不用理会,没有影响的,错误原因是Manifest V2 Chrome 扩展程序将于 2023 年停止工作,目前是能用的

         6、将浏览器重启

         7、在谷歌浏览器的右上角有个像拼图块的图标点开,可以看到安装的插件,按习惯将其固定

         8、点击后页面顶部会出现黑色的边框,这样就是安装成功了

         ps. 注意一点,你在 新标签页 点击是无效的

  1.2 安装 xpath库

        1、我们需要进入当前我们这个项目的Scripts目录打开cmd

                查看目录方法: 在pycharm中 file -> setting -> Project: exercise -> Project Interpreter 查看其中的 Project Interpreter 中的地址

        2、进入cmd进入该目录

        3、安装

pip install lxml -i https://pypi.douban.com/simple
ps. 嫌慢可以在 lxml 后加上 -i https://pypi.douban.com/simple 
    使用国内源下载(这个来源是豆瓣)

        4、 验证是否下载成功,可以打开你的项目,下面会出现进度条在加载你新下的包,新建一个文件写上

from lxml import etree 

        没有报错就算完成 

 ps. 如果你的cmd页面显示了
但你操作第四步的时候报错可以先等待下方进度条加载完成
如果加载完成后file -> setting -> Project: exercise -> Project Interpreter 中没有lxml

那恭喜你安错位置了,如果有,且进度条也加载完了还是报错,那么关掉项目重新打开就行了

xpath的语法可以去查看

Xpath 语法 | 菜鸟教程

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
你好!要使用Python进行爬虫并解析网页内容,可以使用xpath进行数据提取。我可以帮你了解如何使用xpath进行爬虫。 首先,你需要安装相关的库。在Python中,你可以使用`lxml`库来解析HTML或XML文档,并使用`requests`库来发送HTTP请求并获取网页内容。你可以使用以下命令安装这些库: ``` pip install lxml pip install requests ``` 安装完成后,你可以在Python脚本中导入这些库: ```python import requests from lxml import etree ``` 接下来,你可以使用`requests`库发送HTTP请求来获取网页的内容。例如,你可以使用以下代码获取一个网页的内容: ```python url = "http://example.com" response = requests.get(url) html_content = response.text ``` 获取到网页内容后,你可以使用`lxml`库中的`etree.HTML`函数将其转换为可供解析的HTML对象。然后,你可以使用xpath表达式从HTML对象中提取数据。例如,假设你要提取网页中所有`<a>`标签的文本和链接,你可以使用以下代码: ```python html = etree.HTML(html_content) links = html.xpath("//a") for link in links: text = link.text href = link.get("href") print(text, href) ``` 在上述代码中,`//a`是xpath表达式,用于匹配所有`<a>`标签。然后,通过遍历匹配结果,你可以获取每个`<a>`标签的文本和链接。 这只是一个简单的示例,你可以根据具体的网页结构和需求来编写更复杂的xpath表达式来提取数据。 希望这些信息能对你有所帮助!如果你有任何其他问题,请随时提问。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值