html title属性无效_Bleach:Mozilla 出品,快速准确地清理 HTML

c7c92ccba88124b1627796b3bf72c7c8.png

【导语】:Bleach 是 Mozilla 官方开发的 HTML 清理库,用 Python 实现。它使用简单,能够快速准确地清理文本中的 HTML 片段,还能提取出其中的链接,通过点击链接,你就能安全地查阅对应的内容。

简介

在日常的工作中,你是否碰到过带有 HTML 片段的内容,比如博客上的用户评论,或者商品的描述信息?在处理这些内容时,你是否因其中包含的无效标记,不完整标签以及不安全链接而困扰?如果你曾碰到过上述问题,那么 Bleach 库将会解决你的烦恼。

Bleach 是一个基于白名单的 HTML 清理库,可以转义或去除标记和属性。

简而言之,你可以自定义一个列表,其中包括允许存在的标签或属性,当接收到一部分 HTML 文本时,Bleach 能够把文本中的其他标签换码,并去除其他属性;另外,Bleach 还能安全地链接到文本,例如:你可以把一部分 HTML 文本中的所有 URL 转化为安全的 HTML 链接,同时你还能给这些链接自定义属性,还能删除某些不安全的链接。

项目地址:

https://github.com/mozilla/bleach

安装

用 pip 安装:

pip install bleach

使用简单

  1. 假设我们想清理一部分 HTML 中的`<i></i>`标签:
import bleach
result = bleach.clean(
    "<b><i>开源前哨</i></b>",
    tags=["b"]
)
print(result)

输出结果如下:

<b>&lt;i&gt;开源前哨&lt;/i&gt;</b>

2.假设我们想清理一部分 HTML 中的某个属性:

import bleach
result = bleach.clean(
    '<p class="foo" style="color: red; font-weight: bold;">开源前哨</p>',
    tags=['p'],
    attributes=['style'],
    styles=['color'],
)
print(result)

输出结果如下:

<p style="color: red;">开源前哨</p>

3.假设我们想提取链接,并加一个标题:

from bleach.linkifier import Linker
def set_title(attrs, new=False):
    attrs[(None, 'title')] = '京东商城'
    return attrs
linker = Linker(callbacks=[set_title])
result = linker.linkify('shopping https://www.jd.com Buy things.')
print(result)

输出结果如下:

shopping <a href="https://www.jd.com/" title="京东商城">https://www.jd.com</a> Buy things.

4.假设我们想删除某个链接:

from bleach.linkifier import Linker
def remove_link(attrs, new=False):
    if attrs[(None, 'href')].startswith('https:'):
        return None
    return attrs
linker = Linker(callbacks=[remove_link])
result = linker.linkify('<a href="https://www.abc.com">a website</a>')
print(result)

输出结果如下:

a website 

Bleach 的简单介绍就到这里,更多内容详见该库的官方文档:https://bleach.readthedocs.io/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值