网页爬取中的HTML清洗与特殊字符处理-CSDN博客

本文链接：https://blog.csdn.net/m0_74184968/article/details/132041496

在网页上爬文本后要注意清洗

HTML 标签和 HTML的特殊实体字符

import re

def clean_html_and_special_chars(text):
    # 去除 HTML 标签
    cleaned_text = re.sub(r'<[^>]*>', '', text)
    # 去除特殊字符
    cleaned_text = re.sub(r'&[a-zA-Z]+;', '', cleaned_text)
    return cleaned_text

# 示例文本
example_text = "<p>Hello, &nbsp;World! This is a <em>sample</em> text.</p>"
cleaned_text = clean_html_and_special_chars(example_text)
print(cleaned_text)
# 输出：Hello, World! This is a sample text.

HTML 中还有许多其他特殊字符，它们都可以通过 HTML 实体表示。这些特殊字符是为了避免在 HTML 中与标签或其他特殊含义的字符冲突而引入的。以下是一些常见的 HTML 特殊字符以及它们的 HTML 实体表示：

小于号： HTML 实体：<

大于号：> HTML 实体：>

和号（&）： HTML 实体：&

引号（"）： HTML 实体："

单引号（'）： HTML 实体：'（在HTML5中已不推荐使用，可以使用’代替）

版权符号（©）： HTML 实体：©

注册商标符号（®）： HTML 实体：®

不等号（≠）： HTML 实体：≠

省略号（…）： HTML 实体：…

版权符号（©）： HTML 实体：©

分号（;）： HTML 实体：&semi; 或 &num;（用于分隔实体名和实体编号）

这些 HTML 特殊字符主要用于在 HTML 中表示特殊含义的字符，或者用于显示特殊符号，避免与 HTML 标签或其他语法冲突。在网页爬取和处理过程中，如果需要处理这些特殊字符，可以使用相应的 HTML 实体表示或逆向转换成原始字符。