在网页上爬文本后要注意清洗
HTML 标签 和 HTML的特殊实体字符
import re
def clean_html_and_special_chars(text):
# 去除 HTML 标签
cleaned_text = re.sub(r'<[^>]*>', '', text)
# 去除特殊字符
cleaned_text = re.sub(r'&[a-zA-Z]+;', '', cleaned_text)
return cleaned_text
# 示例文本
example_text = "<p>Hello, World! This is a <em>sample</em> text.</p>"
cleaned_text = clean_html_and_special_chars(example_text)
print(cleaned_text)
# 输出:Hello, World! This is a sample text.
HTML 中还有许多其他特殊字符,它们都可以通过 HTML 实体表示。这些特殊字符是为了避免在 HTML 中与标签或其他特殊含义的字符冲突而引入的。以下是一些常见的 HTML 特殊字符以及它们的 HTML 实体表示:
小于号:<br> HTML 实体:
<
大于号:><br> HTML 实体:
>
和号(&):<br> HTML 实体:
&
引号("):<br> HTML 实体:
"
单引号('):<br> HTML 实体:
'
(在HTML5中已不推荐使用,可以使用’
代替)版权符号(©):<br> HTML 实体:
©
注册商标符号(®):<br> HTML 实体:
®
不等号(≠):<br> HTML 实体:
≠
省略号(…):<br> HTML 实体:
…
版权符号(©):<br> HTML 实体:
©
分号(;):<br> HTML 实体:
;
或#
(用于分隔实体名和实体编号)这些 HTML 特殊字符主要用于在 HTML 中表示特殊含义的字符,或者用于显示特殊符号,避免与 HTML 标签或其他语法冲突。在网页爬取和处理过程中,如果需要处理这些特殊字符,可以使用相应的 HTML 实体表示或逆向转换成原始字符。