python html模块调用_Python html 模块简介

最新推荐文章于 2024-05-08 02:56:28 发布

金柔

最新推荐文章于 2024-05-08 02:56:28 发布

阅读量2.1k

点赞数 1

文章标签： python html模块调用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29999895/article/details/114911167

版权

1 html.entities HTML 实体

name2codepoint 将 HTML 实体名称映射到 Unicode 代码点：

html5 将 HTML5 命名字符引用映射到等效的 Unicode 字符

elements = {k:v for k, v in html5.items()}

比如：

27cd694e5781

codepoint2name 将 Unicode 代码点映射到 HTML 实体名称

将 HTML 实体名称映射到字符(如果字符不在 Latin-1 范围内，则映射为字符引用)

from html.entities import entitydefs

比如，数学符号

$math?formula=%5CSigma$ ，

$math?formula=%5Cint$ ，可以直接获得：

27cd694e5781

2 escape(s, quote=True)

escape 将特殊字符＆，< 和 > 替换为HTML安全序列。如果可选的 flags quote 为 True(默认值)，则还会翻译引号字符，包括双引号(")和单引号(')字符。

3 html.unescape(s)

将字符串 s 中的所有命名和数字字符引用 (例如 >, >, >) 转换为相应的 Unicode 字符。此函数使用 HTML 5 标准为有效和无效字符引用定义的规则，以及 HTML 5 命名字符引用列表。

4 html.parser --- 简单的 HTML 和 XHTML 解析器

这个模块定义了一个 HTMLParser 类，为 HTML(超文本标记语言)和 XHTML 文本文件解析提供基础。

class html.parser.HTMLParser(*, convert_charrefs=True) 创建一个能解析无效标记的解析器实例。查找标签(tags)和其他标记(markup)并调用 handler 函数。

用法：

p = HTMLParser()

p.feed(data)

...

p.close()

通过调用 self.handle_starttag 处理开始标签，或通过调用 self.handle_startendtag 处理结束标签。标签之间的数据通过以 data 为参数调用 self.handle_data 从解析器传递到派生类(数据可以分成任意块)。如果 convert_charrefs 为 True，则将字符引用自动转换为相应的 Unicode 字符(并且 self.handle_data 不再拆分成块)，否则通过调用带有字符串的 self.handle_entityref 或 self.handle_cha

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python html模块调用_Python html 模块简介

1 html.entities HTML 实体name2codepoint 将 HTML 实体名称映射到 Unicode 代码点：html5 将 HTML5 命名字符引用映射到等效的 Unicode 字符elements = {k:v for k, v in html5.items()}比如：codepoint2name 将 Unicode 代码点映射到 HTML 实体名称将 HTML 实体名称映...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。