一、xpath的语法
表达式 | 描述 |
---|---|
/ | 从根节点选取 |
// | 从匹配选择的当前节点下选择文档中的节点,不用考虑它们的位置 |
@ | 选取属性 |
. | 选取当前节点 |
. . | 选取当前节点的父节点 |
二、实例
从豆瓣电影排行榜网页源代码中(https://movie.douban.com/chart)截取了以下代码用于演示。
<div class="indent">
<div class="">
<p class="ul first"></p>
<table width="100%" class="">
<tr class="item">
<td width="100" valign="top">
<a class="nbg" href="https://movie.douban.com/subject/30306570/" title="囧妈">
<img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2581835383.webp" width="75" alt="囧妈" class=""/>
</a>
</td>
<td valign="top">
<div class="pl2">
<a href="https://movie.douban.com/subject/30306570/" class="">
囧妈
/ <span style="font-size:13px;">俄囧 / Lost in Russia</span>
</a>
......
1、获取所列的电影的url地址
例如,对于《囧妈》这部电影,它的url地址为:https://movie.douban.com/subject/30306570/
路径表达式为:
url_list = html.xpath("//div[@class='indent']/div/table//div[@class='pl2']/a/@href")
① //div[@class=‘indent’]:首先从根节点下开始选取html中class名为‘indent’的div结点
② //div[@class=‘indent’]/div/table:再从选择的当前节点作为根节点,继续往下选择结点
③ //div[@class=‘indent’]/div/table//div[@class=‘pl2’]: 从匹配选择的当前节点下选择文档中的class名为pl2的div节点
④//div[@class=‘indent’]/div/table//div[@class=‘pl2’]/a:选择到url地址所在的这个结点
⑤//div[@class=‘indent’]/div/table//div[@class=‘pl2’]/a/@href:规定我们要的属性,即href.
2、所有图片的地址
同理。
路径表达式为:
img_list = html.xpath("//div[@class='indent']/div/table//a[@class='nbg']/img/@src")