xpath 统计有几个img标签_爬虫天天见|xpath和Lxml库的简单了解和基本用法

点击上方蓝字关注我们

18a8f72e3ad50775386322d5d1cc5701.png lxm是一个网页解析库。 Xpath是一门在xml/html中查找信息的语言,Xpath可用来在xml/html文档中对元素和属性进行遍历(寻找标签)。 lxml的安装: 方法1:
pip install lxml
方法2:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
20dedcf89b860b4e07394ecd18bef808.png 找适合自己开发版本的lxml库,下载完成之后然后进入到下载目录找到刚才下载的whl文件。然后输入以下命令。
pip install whl 文件名
例如我下载的文件在D盘根目录,所以安装的命令就是: 34a6bc63f78512a4af433ee694deb039.png 这样就可以成功安装lxml了。 我们先来了解一下xpath的最常用的路径表达式
/最外层根节点
//从根节点匹配而不考虑它们的位置
/text()选取文本
@获取属性
接下来我们看个小例子,第一部我们来获取所有的li元素。
    
         first item second item third item fouth item fifth itemanother item       
可以看到我们总共获取到了6个li元素。 fab85c33d99c5f06cb2cfa4e4b711648.png 2.如果我们只想要获取第一个li元素呢?很简单类似于切片的操作,但要注意这里的下标是从1开始的。 现在我们来获取第一个li元素的name。参考上图我们需要用的是text()方法。 4ba1d31dbc71391853dabb6dbc98ae00.png 3.如果我们想要获取第三个元素的a标签的属性呢?这时就要用到我们使用上面提到的@来获取。 b1ea0d60d4a35de10eacbd3d604bbb7c.png 4.现在又有一个新的需求要获取第四个元素的href的属性要怎么做呢? a69ba0d594e074e1a07ead36a3c84454.png 通过这几个简单小例子我们已经对xpath有了有个简单的了解。就像剥洋葱一样一层一层递进。 下一节我们通过一个实例来演示一下我们今天所学的这些操作! 24cdcdc3-d93b-eb11-8da9-e4434bdf6706.svg

点个在看你最好看

28cdcdc3-d93b-eb11-8da9-e4434bdf6706.svg
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值