转换网页特殊字符

最新推荐文章于 2022-10-03 00:08:28 发布

LI4836

最新推荐文章于 2022-10-03 00:08:28 发布

阅读量244

点赞数

分类专栏： Python 文章标签：正则表达式

本文链接：https://blog.csdn.net/LI4836/article/details/103920668

版权

Python 专栏收录该内容

89 篇文章 2 订阅

订阅专栏

由于网页也有自己独特的转义字符，在进行正则匹配的时候就有些麻烦。在官方文档中查到一个用字典替换的方案，私以为不错，拿来做了一些扩充。其中有一些是为保持正则的正确性。

html_escape_table = {
    "&": "&amp;",
    '"': "&quot;",
    "'": "&apos;",
    ">": "&gt;",
    "<": "&lt;",
    u"·":"&#183;",
    u"°":"&#176;",
    #regular expression
    ".":r"\.",
    "^":r"\^",
    "$":r"\$",
    "{":r"\{",
    "}":r"\}",
    "\\":r"\\",
    "|":r"\|",
    "(":r"\(",
    ")":r"\)",
    "+":r"\+",
    "*":r"\*",
    "?":r"\?",
}
 
def html_escape(text):
    """Produce entities within text."""
    tmp="".join(html_escape_table.get(c,c) for c in text)
    return tmp.encode("utf-8")

LI4836

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
转换网页特殊字符

由于网页也有自己独特的转义字符，在进行正则匹配的时候就有些麻烦。在官方文档中查到一个用字典替换的方案，私以为不错，拿来做了一些扩充。其中有一些是为保持正则的正确性。html_escape_table = { "&": "&amp;", '"': "&quot;", "'": "&apos;", ">": "&gt;",...
复制链接

扫一扫