xpath提取 html标签的文字内容

问题描述:

做爬虫的过程中经常需要对html标签的文字内容进行提取,有几种情况
1.提取属性的值,2.提取标签的值,3.提取段落的所有文字

本文用的是 scrapy 的框架,用 response 做响应

1.提取属性的值
<a title="这是一个标题">

response.xpath("//a/@title").get(),可以直接得到 title 的值为:这是一个标题

注:get 方法是等同于extract()[0],getall 方法等同于extract()
官方文档1.5以后推荐使用 get 系列方法代替原来的 extract 系列方法
两种方法可以同时使用,看个人喜好
2.提取标签的值
<a title="这是一个标题">这才是标题</a>

response.xpath("//a/text()").get(),可以得到 a 标签的值:这才是标题
3.提取段落所有文字
<div class="test">
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>

response.xpath("//div[@class='test']").get()
这种方式可以得到值为 test 的 div 标签下的所有标签组,即:
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
浏览器展示是没问题的,但是我们需要纯文字用于匹配
为了去除标签,需要加一个 string 的方法,即:
response.xpath("string(//div[@class='test'])").get(),这样可以获取纯文字:
左青龙右白虎老牛在当中龙头在胸口
4.html 类型的字符串清除 html 标签

这是对3的补充,给个栗子
某次返回直接给一个html类型的字符串,记住是字符串,不是从response获取到的
返回json

{"title": 这是标题,
"content":"<div class='test'>
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>"}

这时候response.body是一个json结构体,直接用xpath不行的,所以需要做一个转换

import json
from scrapy import Selector


json_content = json.loads(response.body)["content"]
content = Selector(text=json_content)
content_text = content.xpath("string(.)").get()

因为只有 Selector 才有xpath方法,所以需要把 html 类型的字符串做一次转换才能用 string 方法
  • 7
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值