python中XPath与bs4的简单使用

本文介绍了在Python中XPath的基本使用和安装,强调了其在爬虫中的重要性,并对比了XPath与正则表达式的优劣。同时,文章也讲解了BeautifulSoup(bs4)库,它是XPath的简化版,适用于简单网站的爬取。通过示例代码,展示了如何运用XPath爬取糗事百科。
摘要由CSDN通过智能技术生成

XPath是XML路径语言,它是一种用来确定XML文档中某部分位置的语言。

在python爬虫方面的学习中,xpath至关重要,它与正则相比具有明显的优势。下面将介绍在python中xpath的简单使用。

安装方法不必多说,与其他第三方库的安装方法一样,使用pip安装。

使用方式

首先需要导入库

import lxml.html

接下来就是使用了,话不多说,上代码

# 使用方式介绍
#---------------------------------
#/     从根标签开始
#//    从当前标签
#*     通配符,选择所有
#//div/book[1]/title  选择div下第一个book标签的title元素
#//div/book/title[@lang='zh'] 选择title属性含有lang且内容为zh的title元素
#//div/book/title[@*] 将含有属性的title标签选出来
#//div/book/title/@*  将title标签中的属性值选出来
#//div/book/title/text() 选出title标签中的内容,使用内置函数text()
#//div/book/title  //book/title  //title具有相同的结果
#//a[@href='link1.html' and @id='places_neighbours__row'] 把两个条件都满足的a标签选出来
#//a[@href='link1.html' or @id='places_neighbours__row'] 把满足任意一个条件的a标签选出来
#//a[not(@href)] 将不存在href元素的a标签选出来
#//a[@href!='link1.html'] 将存在href元素 但不等于link1.html的a标签选出来
#//li[starts-with(@class,'item')] 将class属性前缀是item的li标签选出来
#//li[contains(@class,'ct')] 将class属性中含有ct关键字的li标签选出来
#//div/book[last()]/title/text() 将最后一个book元素中title内容选出来
#//div/book[last()-1]/title/text() 将倒数第二个book元素中title内容选出来
#//div/book[price > 39]/title/text() 将book中price标签中的内容大于39的选出来
#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值