如何用xpath提取注释中的内容（学习打卡第一天）

最新推荐文章于 2023-08-18 11:13:36 发布

耍酷的boys

最新推荐文章于 2023-08-18 11:13:36 发布

阅读量1.2k

点赞数

文章标签： html html5 python

本文链接：https://blog.csdn.net/qq_51399325/article/details/120242680

版权

本文介绍了如何利用Python的lxml库中的etree模块，通过XPath表达式来提取HTML文档中的注释内容，提供了测试代码供读者验证。

摘要由CSDN通过智能技术生成

首先导入etree模块

from lxml import etree
我们随便写一段html代码来进行测试

from lxml import etree
import re

html_str = '''
<div class="帅哥“> 

        <span title="name"> 我是一个帅哥呀 </span>

        <div >
            <span id="3939"> 
                确实是一个帅哥 
                <!-- 你是帅哥吗？-->
                <!-- 其实我知道， 你不是帅哥 -->
            </span>
        </div>

</div>'''

html = etree.HTML(html_str)
# 第一种获取注释内容的方法
# 在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、
# 处理指令、注释以及文档（根节点。而node就是代表节点，
# 所以通过node()方法拿出注释这个节点自然也就拿出了注释中的文字，
# 在通过text方法拿出注释节点中的文字就可以
text3 = html.xpath('//div/div/node()')[1].text
print(type(html.xpath('//div/div/node()')[1]))
print((html.xpath('//div/div/node()')[1]))
print(text3)

# 第二种获取注释内容的方法
# 通过去修改获取的html文本文件来实现，用replace替换方法

最低0.47元/天解锁文章

耍酷的boys

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
如何用xpath提取注释中的内容（学习打卡第一天）

首先导入etree模块from lxml import etree我们随便写一段html代码来进行测试from lxml import etreeimport rehtml_str = '''<div class="帅哥“> <span title="name"> 我是一个帅哥呀 </span> <div > <span id="3939"> ...
复制链接

扫一扫