在Python提供的标准库中有一个名为html的标准库,该标准库提供的功能很简单,仅仅是把一些组成标签的尖括号或者是一些特殊字符转换成实体字符。
这也是Python本身秉持的设计哲学,就是一个函数、一个模块或者一个标准库只专注于一件事或者是某一方面的事。
我们先来大概了解该标准的组成
>>> import html
>>> dir(html)
['__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_charref', '_html5', '_invalid_charrefs', '_invalid_codepoints', '_re', '_replace_charref', 'entities', 'escape', 'unescape']
我们不管那些以_开头的东东,把注意放在escape和unescape这两个函数上。
假设我有一些HTML,我担心其中会包含一些可能危险的
没错escape函数就是转义的意思,就是把一些字符转换为实体字符。比如“<”会转换成“&+lt”、“>”会转换成“&+gt”等等。(加号表示连接两边的符号)
>>> import html
>>> help(html.escape)
Help on function escape in modul