python与html结合_Python在字符串中处理html和xml的方法

最新推荐文章于 2024-08-28 20:45:25 发布

weixin_39627481

最新推荐文章于 2024-08-28 20:45:25 发布

阅读量126

点赞数

文章标签： python与html结合

问题

你想将HTML或者XML实体如 &entity; 或 code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<' 或者 ‘>' ，使用 html.escape() 函数可以很容易的完成。比如：

>>> s = 'Elements are written as "text".'

>>> import html

>>> print(s)

Elements are written as "text".

>>> print(html.escape(s))

Elements are written as "<tag>text</tag>".

>>> # Disable escaping of quotes

>>> print(html.escape(s, quote=False))

Elements are written as "<tag>text</tag>".

>>>

如果你正在处理的是ASCII文本，并且想将非ASCII文本对应的编码实体嵌入进去，可以给某些I/O函数传递参数 errors='xmlcharrefreplace' 来达到这个目。比如：

>>> s = 'Spicy Jalapeño'

>>> s.encode('ascii', errors='xmlcharrefreplace')

b'Spicy Jalapeño'

>>>

为了替换文本中的编码实体，你需要使用另外一种方法。如果你正在处理HTML或者XML文本，试着先使用一个合适的HTML或者XML解析器。通常情况下，这些工具会自动替换这些编码值，你无需担心。

有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你只需要使用HTML或者XML解析器的一些相关工具函数/方法即可。比如：

>>> s = 'Spicy "Jalapeño&quot.'

>>> from html.parser import HTMLParser

>>> p = HTMLParser()

>>> p.unescape(s)

'Spicy "Jalapeño".'

>>>

>>> t = 'The prompt is >>>'

>>> from xml.sax.saxutils import unescape

>>> unescape(t)

'The prompt is >>>'

>>>

讨论

在生成HTML或者XML文本的时候，如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print()函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本，还有一些其他的工具函数比如 xml.sax.saxutils.unescapge()可以帮助你。然而，你应该先调研清楚怎样使用一个合适的解析器。比如，如果你在处理HTML或XML文本，使用某个解析模块比如 html.parse或 xml.etree.ElementTree 已经帮你自动处理了相关的替换细节。

以上就是Python在字符串中处理html和xml的方法的详细内容，更多关于Python在字符串中处理html和xml的资料请关注脚本之家其它相关文章！

weixin_39627481

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。