获取标签内部全部文本的几种方式:(1)获取最外面的标签,遍历内部的所有子标签并获取标签文本;
(2)用正则去掉所有标签;
(3)/text()获取标签的文本,//text()获取标签以及子标签的文本;
(4)使用xpath('string(.)')这种方式获取所有文本并且拼接。
以一个网站为例:
初始代码:
import scrapy
import re
class XiaoshuoSpider(scrapy.Spider):
name = 'xiaoshuo'
allowed_domains = ['tieba.baidu.com']
start_urls = ['https://tieba.baidu.com/p/4685013359']
def parse(self, response):
以下几种操作方式与初始代码相连获取文本:
1.获取最外面的标签,遍历内部所有的子标签,获取标签文本。代码如下:
# 首先我们先获取包裹所有内容的标签,在此基础上进