爬虫【7】 xpath解析

最新推荐文章于 2023-09-21 16:36:56 发布

AndSonder

最新推荐文章于 2023-09-21 16:36:56 发布

阅读量429

点赞数

分类专栏：爬虫文章标签： python xpath js html

本文链接：https://blog.csdn.net/python_LC_nohtyp/article/details/104722719

版权

爬虫专栏收录该内容

12 篇文章 4 订阅

订阅专栏

爬虫【7】 xpath解析

爬虫回顾：

Xpath解析

定义

XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索
匹配演示：

<ul class="CarList">
	<li class="bjd" id="car_001" href="http://www.bjd.com/">
        <p class="name">布加迪</p>
        <p class="model">威航</p>
        <p class="price">2500万</p>
        <p class="color">红色</p>
    </li>
    
    <li class="byd" id="car_002" href="http://www.byd.com/">
        <p class="name">比亚迪</p>
        <p class="model">秦</p>
        <p class="price">15万</p>
        <p class="color">白色</p>
    </li>
</ul>

1、查找所有的li节点
  //li
2、获取所有汽车的名称: 所有li节点下的子节点p的值 (class属性值为name）
  //li/p[@class="name"]  
3、找比亚迪车的信息: 获取ul节点下第2个li节点的汽车信息
  //ul/li[2]                          
4、获取所有汽车的链接: ul节点下所有li子节点的href属性的值
  //ul/li/@href

# 只要涉及到条件,加 []
# 只要获取属性值,加 @

匹配多路径（或）

xpath表达式1 | xpath表达式2 | xpath表达式3

常用函数

1、contains() ：匹配属性值中包含某些字符串节点
   # 查找id属性值中包含字符串 "car_" 的 li 节点
   //li[contains(@id,'car_')]
2、text() ：获取节点的文本内容
   # 查找所有汽车的价格
    //li/p[@class='price']

lxml解析库

安装

pip3 install lxml == 3.7.2

使用流程

1、导模块
   from lxml import etree
2、创建解析对象
   parse_html = etree.HTML(html)
3、解析对象调用xpath
   r_list = parse_html.xpath('xpath表达式')

导 ==》创 ==》解

解析html样本事例

<div class="wrapper">
	<a href="/" id="channel">新浪社会</a>
	<ul id="nav">
		<li><a href="http://domestic.sina.com/" title="国内">国内</a></li>
		<li><a href="http://world.sina.com/" title="国际">国际</a></li>
		<li><a href="http://mil.sina.com/" title="军事">军事</a></li>
		<li><a href="http://photo.sina.com/" title="图片">图片</a></li>
		<li><a href="http://society.sina.com/" title="社会">社会</a></li>
		<li><a href="http://ent.sina.com/" title="娱乐">娱乐</a></li>
		<li><a href="http://tech.sina.com/" title="科技">科技</a></li>
		<li><a href="http://sports.sina.com/" title="体育">体育</a></li>
		<li><a href="http://finance.sina.com/" title="财经">财经</a></li>
		<li><a href="http://auto.sina.com/" title="汽车">汽车</a></li>
	</ul>
</div>

接下来分别完成：
1. 提取所有的href的属性值
2. 提取所有href的值,不包括 / 
3. 获取 图片、军事、...,不包括新浪社会

"""
lxml
"""
from lxml import etree

html = """
<div class="wrapper">
	<a href="/" id="channel">新浪社会</a>
	<ul id="nav">
		<li><a href="http://domestic.sina.com/" title="国内">国内</a></li>
		<li><a href="http://world.sina.com/" title="国际">国际</a></li>
		<li><a href="http://mil.sina.com/" title="军事">军事</a></li>
		<li><a href="http://photo.sina.com/" title="图片">图片</a></li>
		<li><a href="http://society.sina.com/" title="社会">社会</a></li>
		<li><a href="http://ent.sina.com/" title="娱乐">娱乐</a></li>
		<li><a href="http://tech.sina.com/" title="科技">科技</a></li>
		<li><a href="http://sports.sina.com/" title="体育">体育</a></li>
		<li><a href="http://finance.sina.com/" title="财经">财经</a></li>
		<li><a href="http://auto.sina.com/" title="汽车">汽车</a></li>
	</ul>
</div>
"""

parse_html = etree.HTML(html)
all_href = parse_html.xpath('//a/@href')
print(all_href)
some_href = parse_html.xpath('//a[@href!="/"]/@href')
print(some_href)
some_text = parse_html.xpath('//a[text()!="新浪社会"]/text()')
print(some_text)

AndSonder

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫【7】 xpath解析

爬虫【7】 xpath解析爬虫回顾：爬虫【1】打开网站，获取信息爬虫【2】重构UserAgent爬虫【3】URL地址编码爬虫【4】爬取百度贴吧并生成静态页面爬虫【5】爬虫猫眼电影100榜单并保存到csv爬虫【6】链家二手房信息和图片并保存到本地爬虫【7】链家二手房信息和图片并保存到本地Xpath解析定义XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的...
复制链接

扫一扫