文本数据清洗

在网页上爬文本后要注意清洗

HTML 标签 和 HTML的特殊实体字符

import re

def clean_html_and_special_chars(text):
    # 去除 HTML 标签
    cleaned_text = re.sub(r'<[^>]*>', '', text)
    # 去除特殊字符
    cleaned_text = re.sub(r'&[a-zA-Z]+;', '', cleaned_text)
    return cleaned_text

# 示例文本
example_text = "<p>Hello, &nbsp;World! This is a <em>sample</em> text.</p>"
cleaned_text = clean_html_and_special_chars(example_text)
print(cleaned_text)
# 输出:Hello, World! This is a sample text.

HTML 中还有许多其他特殊字符,它们都可以通过 HTML 实体表示。这些特殊字符是为了避免在 HTML 中与标签或其他特殊含义的字符冲突而引入的。以下是一些常见的 HTML 特殊字符以及它们的 HTML 实体表示:

  1. 小于号:<br> HTML 实体:&lt;

  2. 大于号:><br> HTML 实体:&gt;

  3. 和号(&):<br> HTML 实体:&amp;

  4. 引号("):<br> HTML 实体:&quot;

  5. 单引号('):<br> HTML 实体:&apos;(在HTML5中已不推荐使用,可以使用&rsquo;代替)

  6. 版权符号(©):<br> HTML 实体:&copy;

  7. 注册商标符号(®):<br> HTML 实体:&reg;

  8. 不等号(≠):<br> HTML 实体:&ne;

  9. 省略号(…):<br> HTML 实体:&hellip;

  10. 版权符号(©):<br> HTML 实体:&copy;

  11. 分号(;):<br> HTML 实体:&semi;&num;(用于分隔实体名和实体编号)

这些 HTML 特殊字符主要用于在 HTML 中表示特殊含义的字符,或者用于显示特殊符号,避免与 HTML 标签或其他语法冲突。在网页爬取和处理过程中,如果需要处理这些特殊字符,可以使用相应的 HTML 实体表示或逆向转换成原始字符。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值