介绍Python3处理html文档中编码的字符(比如escape过的引号是")的办法,如何解码和编码。
工具/原料
Python 3.6
方法/步骤
1
首先,如图是从html文档中截取的片段,可以看到其中有很多html转义编码的字符,比如引号变为"。
2
要解码这种字符串,一种旧方法是import cgi,使用cgi的escape()函数,但是该方法现在已经废弃。
3
现在推荐的做法是使用html模块。首先import html,引用这个模块。
4
使用html的成员函数escape(),可以将一段正常带有符号的文本转义为html里的文本。
5
使用html的unescape函数,可以将带有html转义的字符串还原为原来的字符串。
END
注意事项
这是html转义序列,还有url转义%开头,unicode转义\u开头。
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。
展开阅读全部