python环境下使用xpath

最新推荐文章于 2024-04-26 14:21:47 发布

forHeart_toHeart

最新推荐文章于 2024-04-26 14:21:47 发布

阅读量460

点赞数 3

分类专栏： Python 文章标签： PYTHON XPATH

本文链接：https://blog.csdn.net/qq_35284431/article/details/83056134

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

xpath用于定位网页元素,可以理解为选择器.

在python里可以使用正则表达式,BeautifulSoup,xpath,css选择想要的html元素

这里先介绍下xpath的使用,目前比较倾向使用xpath

xpath使用非常简单啦,

例子:中国天气网http://www.weather.com.cn/weather1d/101020100.shtml#search

要选取html元素,就先观察分析html页面:

假如我们要选取城市名称,在html里找找,打开网页按F12使用开发者界面,如上图.

在开发者模式下可以看到html界面元素和代码的映射,方便查找.

------------------------------------------------------------------------------------

下面我们获取html里的信息:

In [1]: response.xpath("//div[@class='crumbs fl']/span[2]/text()")
Out[1]: [<Selector xpath="//div[@class='crumbs fl']/span[2]/text()" data='城区'>]

In [2]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract_first()
Out[2]: '城区'

In [3]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract()
Out[3]: ['城区']

In [4]: response.xpath("//div[@class='crumbs fl']/a/text()").extract_first()
Out[4]: '上海'

可以看到xpath是依靠路径path来定位元素,

span[2]表示这个class='crumbs f1'的div下的第二个span块

如果这个div块下只有一个span则直接span即可

例如div块下只有一个a标签则直接用"//div[@class='crumbs fl']/a/text()"来选取.

----------------------------------------------------------------------------------

补充:xpath获取标签属性:

使用@就行:

forHeart_toHeart

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python环境下使用xpath

xpath用于定位网页元素,可以理解为选择器.在python里可以使用正则表达式,BeautifulSoup,xpath,css选择想要的html元素这里先介绍下xpath的使用,目前比较倾向使用xpathxpath使用非常简单啦,例子:中国天气网http://www.weather.com.cn/weather1d/101020100.shtml#search要选取html元...
复制链接

扫一扫

专栏目录