Xpath如何提取一个标签里的所有文本？

对明天的期待丶

于 2018-11-18 11:36:42 发布

阅读量1.6w

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_39429962/article/details/84196938

版权

本文介绍如何使用XPath从HTML文档中提取指定标签内的所有文本。通过示例代码和测试网页，展示XPath操作HTML文本的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

content = etree.HTML(text)
h = content.xpath('//h1')
h1 = h[0].xpath('string(.)').strip()

实例测试：

测试网页地址：测试地址

代码如下：

import requests
import re
import pymysql
from lxml import etree
from pymongo import MongoClient
sessions = requests.session()
sessions.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
r = sessions.get(
    'https://baike.baidu.com/item/%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%B1%80%E9%83%91%E5%B7%9E%E5%9F%BA%E7%A1%80%E5%B7%A5%E7%