爬虫 - 数据解析 - xpath

最新推荐文章于 2021-08-25 09:20:08 发布

学习中的小菜鸟.

最新推荐文章于 2021-08-25 09:20:08 发布

阅读量125

点赞数 1

分类专栏：爬虫文章标签： xpath

本文链接：https://blog.csdn.net/qq_33962481/article/details/115866139

版权

爬虫专栏收录该内容

30 篇文章 0 订阅

订阅专栏

文章目录

一、xpath解析原理
二、使用步骤
- 1. 实例化一个etree对象
三、xpath表达式

一、xpath解析原理

实例化一个etree的对象, 且需要将被解析的页面源码数据加载到该对象中.
通过调用etree对象中的xpath方法, 结合xpath表达式实现标签的定位和内容的解析

二、使用步骤

1. 实例化一个etree对象

导入 : from lxml import etree

三、xpath表达式

由于html代码书写不规范，不符合xml解析器的使用规范导致 lxml.etree.XMLSyntaxError 错误
解决办法 :

创建解析器，同时增加parser参数

parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('test.html', parser=parser)

1. xpath表达式

/ : 表示的是从根节点开始定位, 表示的是一个层级
// : 表示的是多个层级, 可以表示从任意位置开始定位

1. 属性定位

语法 : r = tree.xpath("//div[@属性名='属性值']")

from lxml import etree

parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('test.html', parser=parser)
# 获取任意位置的div, 并且div的class属性为song
r = tree.xpath("//div[@class='song']")

2. 索引定位

# 获取任意位置class属性为song的div,里面的第三个p标签
r = tree.xpath("//div[@class='song']/p[3]")

3. 取文本

/text() : 获取的是标签中直系的文本内容
//text() : 获取的是标签中所有的文本内容

from lxml import etree

parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('test.html', parser=parser)
r = tree.xpath("//div[@class='tang']//li[2]/a/text()")[0]

3. 取属性

语法 : /@arrtName

r = tree.xpath("//div[@class='tang']//img/@src")[0]

2. 获取title

from lxml import etree

parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('test.html', parser=parser)
title = tree.xpath("/html/head/title")
print(title)

学习中的小菜鸟.

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫 - 数据解析 - xpath

文章目录一、xpath解析原理二、使用步骤1. 实例化一个etree对象三、xpath表达式1. xpath表达式1. 属性定位2. 索引定位3. 取文本3. 取属性2. 获取title一、xpath解析原理实例化一个etree的对象, 且需要将被解析的页面源码数据加载到该对象中.通过调用etree对象中的xpath方法, 结合xpath表达式实现标签的定位和内容的解析二、使用步骤1. 实例化一个etree对象导入 : from lxml import etree三、xpath表达
复制链接

扫一扫