Python——获取标签内部所有文本的方式

本文介绍了Python中获取HTML标签内部所有文本的四种方法:遍历子标签、正则去除标签、使用/text()和xpath('string(.)')。通过实例代码展示了如何实现这些方法。
摘要由CSDN通过智能技术生成

  获取标签内部全部文本的几种方式:(1)获取最外面的标签,遍历内部的所有子标签并获取标签文本;

                                                            (2)用正则去掉所有标签;

                                                            (3)/text()获取标签的文本,//text()获取标签以及子标签的文本;

                                                            (4)使用xpath('string(.)')这种方式获取所有文本并且拼接。

以一个网站为例:

初始代码:

import scrapy
import re
 
class XiaoshuoSpider(scrapy.Spider):
    name = 'xiaoshuo'
    allowed_domains = ['tieba.baidu.com']
    start_urls = ['https://tieba.baidu.com/p/4685013359']
 
    def parse(self, response):

 以下几种操作方式与初始代码相连获取文本:

1.获取最外面的标签,遍历内部所有的子标签,获取标签文本。代码如下:

# 首先我们先获取包裹所有内容的标签,在此基础上进
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值