python html模块调用_Python html 模块简介

1 html.entities HTML 实体

name2codepoint 将 HTML 实体名称映射到 Unicode 代码点:

html5 将 HTML5 命名字符引用映射到等效的 Unicode 字符

elements = {k:v for k, v in html5.items()}

比如:

27cd694e5781

codepoint2name 将 Unicode 代码点映射到 HTML 实体名称

将 HTML 实体名称映射到字符(如果字符不在 Latin-1 范围内,则映射为字符引用)

from html.entities import entitydefs

比如,数学符号

math?formula=%5CSigma

math?formula=%5Cint,可以直接获得:

27cd694e5781

2 escape(s, quote=True)

escape 将特殊字符 &,< 和 > 替换为HTML安全序列。如果可选的 flags quote 为 True(默认值),则还会翻译引号字符,包括双引号(")和单引号(')字符。

3 html.unescape(s)

将字符串 s 中的所有命名和数字字符引用 (例如 >, >, >) 转换为相应的 Unicode 字符。此函数使用 HTML 5 标准为有效和无效字符引用定义的规则,以及 HTML 5 命名字符引用列表。

4 html.parser --- 简单的 HTML 和 XHTML 解析器

这个模块定义了一个 HTMLParser 类,为 HTML(超文本标记语言)和 XHTML 文本文件解析提供基础。

class html.parser.HTMLParser(*, convert_charrefs=True) 创建一个能解析无效标记的解析器实例。查找标签(tags)和其他标记(markup)并调用 handler 函数。

用法:

p = HTMLParser()

p.feed(data)

...

p.close()

通过调用 self.handle_starttag 处理开始标签,或通过调用 self.handle_startendtag 处理结束标签。标签之间的数据通过以 data 为参数调用 self.handle_data 从解析器传递到派生类(数据可以分成任意块)。如果 convert_charrefs 为 True,则将字符引用自动转换为相应的 Unicode 字符(并且 self.handle_data 不再拆分成块),否则通过调用带有字符串的 self.handle_entityref 或 self.handle_cha

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值