Python之unicodedata模块的常用函数用法

因为有时会使用汉语做注释,所以必须将程序的编码方式设为utf-8,而且要使用unicodedata的函数,所以必须在所有代码前加入以下几行代码:

# -*- coding:utf-8 -*-

import unicodedata

在以后的代码中,为了减少代码量,方便自己与他人阅读,不会再特意写出上面的代码了,在这里特别指出来。

除此之外,为减少输出代码量,若产生的是正确结果,则原样输出结果。若出现错误抛出异常,则只打印是什么异常,如,ValueError或KeyError或TypeError。

1 lookup

语法:unicodedata.lookup(name)

描述:通过一个名称(name)来查找一个字符。如果找到name对应的字符,则返回相应字符;若未找到,则抛出异常KeyError。

示例代码如下:

print(unicodedata.lookup('LEFT CURLY BRACKET')) # 左卷曲括号, '{'
print(unicodedata.lookup('LOWER')) 

输出结果为:

{
KeyError

2 name

语法:unicodedata.name(chr[, default])

描述:通过字符(chr,只能是单个字符)来查找它的名称。若成功则返回相应名称。给定默认值default后,若未找到对应名称时则返回default值;若未给定默认值,且未找到对应名称则抛出异常ValueError。

示例代码如下:

print(unicodedata.name('^'))
print(unicodedata.name('\n', 0)) # 未找到对应名称,返回'0'
print(unicodedata.name('\n')) # 未找到对应名称,且未指定默认值,所以抛出异常ValueError

输出结果为:

CIRCUMFLEX ACCENT
0
ValueError

3 decimal

语法:unicodedata.decimal(chr[,default])

描述:将unicode字符(chr)转换为其等效的十进制值。以整数形式返回【该字符对应的十进制值】。若未定义这样的值,则返回默认值default;若未指定默认值,则抛出ValueError异常。

示例代码如下:

print(unicodedata.decimal('9')) # 成功,返回9
print(unicodedata.decimal('a', 0)) # 未找到,返回默认值0
print(unicodedata.decimal('a')) # 未找到,且未指定默认值,所以抛出ValueError异常

输出结果为:

9
0
ValueError

4 digit

语法:unicodedata.digit(chr[, default])

描述:将unicode字符(chr)转换为其等效的数字值。以整数形式返回【该字符对应的数字值】。若未定义这样的值,则返回默认值default;若未指定默认值,则抛出ValueError异常。

示例代码如下:

print(unicodedata.digit('9')) # 成功,返回9
print(unicodedata.digit('\t', 0)) # 未找到,返回默认值0
print(unicodedata.digit('\t'))  # 未找到,且未指定默认值,所以抛出ValueError异常

输出结果为:

9
0
ValueError

5 numeric

语法:unicodedata.numeric(chr[, default])

描述:将Unicode字符(chr)转换为等效的数值。以浮点形式返回【与chr相对应的数值】。若未定义这样的值,则返回默认值default;若未指定默认值,则抛出ValueError异常。(把一个表示数字的字符转换为浮点数。比如,可将’5’、'五’转换数值输出。与digit()不同是numeric()可以转换任意表示数值的字符,不仅仅限于0到9的字符)

示例代码如下:

print(unicodedata.numeric('四'))
print(unicodedata.numeric('a', 0)) # 'a'不能转换为数字,所以返回默认值0

输出结果为:

4.0
0

6 category

语法:unicodedata.category(chr)

描述:返回字符chr在unicode里分类的类型。具体类型见文档结尾附录1

示例代码如下:

print(unicodedata.category('四')) # Letter, Other
print(unicodedata.category('8')) # Number, Decimal Digit

输出结果为

Lo
Nd

7 combining

(对此函数存疑,不明白“权威组合值”为何物,以后看见了记得必须解决问题)

语法:unicodedata.combining(chr)

描述:返回字符chr的权威组合值,若未定义这样的值,则返回0。

示例代码如下(因为我未找到合适案例使得返回值为【权威组合值】,因此只能选择返回结果0实例,初级程序员,请见谅):

print(unicodedata.combining('9'))
print(unicodedata.combining('e'))

输出结果为:

0
0

8 east_asian_width

语法:unicodedata.east_asian_width(chr)

描述:返回字符显示的宽度。具体内容如下:
F:fullwidth,H:halfwidth,W:wide,Na:narrow,A:ambiguous(不明确),N:natural(正常)

示例代码如下:

print(unicodedata.east_asian_width('我'))
print(unicodedata.east_asian_width('1'))
print(unicodedata.east_asian_width('a'))

输出结果如下:

W
Na
Na

9 mirrored

语法:unicodedata.mirrored()

描述:判断字符chr是否支持镜像属性,支持则返回1,不支持则返回0。

示例代码如下:

print(unicodedata.mirrored('0'))
print(unicodedata.mirrored('薛'))

输出结果为:

0
0

10 decomposition

语法:unicodedata.decomposition(chr)

描述:将一个可分解的字符chr分成两个16进制的值并返回,如果不可分解,返回空。

示例代码如下:

print(unicodedata.decomposition('é')) # 可分解
print(unicodedata.decomposition('e')) # 不可分解,所以返回空值(输出就是一片空白)

输出结果为:

0065 0301

11 normalize

语法:unicodedata.normalize(form, unistr)

描述:将unicode字符串unistr进行规范化。规范形式form有四种:NFC、NFD、NFKC和NFKD。将字符串规范化是为了方便存储文本或者比较字符串而设计的。

因为知识水平有限,且确实未在网上找到NFKC与NFKD相关信息,我只介绍NFC与NFD。NFC是【使用最少的码位构成等价的字符串】;NFD是【把组合字符分解成基字符和单独的组合字符(两个“组合字符”是不同的,自行体会)】

示例代码如下:

s1 = 'café' # 'é'为组合字符,由'e'与重音符组合而成
s2 = 'cafe\u0301' # 将'é'拆为'e'和'\u0301','\u0301'为重音符的unicode编码

print(unicodedata.normalize('NFC', s1)) # NFC使用最少的码位,所以'é'被合并为一个字符(事实上s1中本来就是é),因而返回结果为'café'(输出不带引号)
print(unicodedata.normalize('NFC', s2)) # 'e'和'\u0301'被合并为一个字符é,因而返回结果为'café'(输出不带引号)
print(unicodedata.normalize('NFD', s1)) # NFD使组合字符拆开为两个字符,这里'é'被拆为'e'和重音符,即输出结果为:'cafeˋ'
print(unicodedata.normalize('NFD', s2)) # s2最后两个字符为'e'和'\u0301',(我不知道内部机理是什么,接下来的叙述是我自己的理解,不知道正确与否),直接将'\u0301'解释为重音符'ˋ',输出为'cafeˋ'

输出结果为:

café
café
cafeˋ
cafeˋ

12 unidata_version

语法:unicodedata.unidata_version

描述:返回当前unicod e使用的数据库的版本

示例代码如下:

unicodedata.unidata_version

输出结果为:

'12.1.0'

附录1 字符类型

[Cc] Other, Control

[Cf] Other, Format

[Cn] Other, Not Assigned (no characters in the file have this property)

[Co] Other, Private Use

[Cs] Other, Surrogate

[LC] Letter, Cased

[Ll] Letter, Lowercase

[Lm] Letter, Modifier

[Lo] Letter, Other

[Lt] Letter, Titlecase

[Lu] Letter, Uppercase

[Mc] Mark, Spacing Combining

[Me] Mark, Enclosing

[Mn] Mark, Nonspacing

[Nd] Number, Decimal Digit

[Nl] Number, Letter

[No] Number, Other

[Pc] Punctuation, Connector

[Pd] Punctuation, Dash

[Pe] Punctuation, Close

[Pf] Punctuation, Final quote (may behave like Ps or Pe depending on usage)

[Pi] Punctuation, Initial quote (may behave like Ps or Pe depending on usage)

[Po] Punctuation, Other

[Ps] Punctuation, Open

[Sc] Symbol, Currency

[Sk] Symbol, Modifier

[Sm] Symbol, Math

[So] Symbol, Other

[Zl] Separator, Line

[Zp] Separator, Paragraph

[Zs] Separator, Space

常用模块 python除了关键字(keywords)和内置的类型和函数(builtins),更多的功能是通过libraries(即modules)来提供的。 常用的libraries(modules)如下: 1)python运行时服务 * copy: copy模块提供了对复合(compound)对象(list,tuple,dict,custom class)进行浅拷贝和深拷贝的功能。 * pickle: pickle模块被用来序列化python的对象到bytes流,从而适合存储到文件,网络传输,或数据库存储。(pickle的过程也被称serializing,marshalling或者flattening,pickle同时可以用来将bytes流反序列化为python的对象)。 * sys:sys模块包含了跟python解析器和环境相关的变量和函数。 * 其他: atexit,gc,inspect,marshal,traceback,types,warnings,weakref。 2)数学 * decimal:python中的float使用双精度的二进制浮点编码来表示的,这种编码导致了小数不能被精确的表示,例如0.1实际上内存中为0.100000000000000001,还有3*0.1 == 0.3 为False. decimal就是为了解决类似的问题的,拥有更高的精确度,能表示更大范围的数字,更精确地四舍五入。 * math:math模块定义了标准的数学方法,例如cos(x),sin(x)等。 * random:random模块提供了各种方法用来产生随机数。 * 其他:fractions,numbers。 3)数据结构,算法和代码简化 * array: array代表数组,类似与list,与list不同的是只能存储相同类型的对象。 * bisect: bisect是一个有序的list,其中内部使用二分法(bitsection)来实现大部分操作。 * collections:collections模块包含了一些有用的容器的高性能实现,各种容器的抽象基类,和创建name-tuple对象的函数。例如包含了容器deque,defaultdict,namedtuple等。 * heapq:heapq是一个使用heap实现的带有优先级的queue。 * itertools:itertools包含了函数用来创建有效的iterators。所有的函数都返回iterators或者函数包含iterators(例如generators 和generators expression)。 * operator: operator提供了访问python内置的操作和解析器提供的特殊方法,例如 x+y 为 add(x,y),x+=y为iadd(x,y),a % b 为mod(a,b)等等。 * 其他:abc,contextlib,functools。 4) string 和 text 处理 *codecs:codecs模块被用来处理不同的字符编码与unicode text io的转化。 * re:re模块用来对字符串进行正则表达式的匹配和替换。 * string:string模块包含大量有用的常量和函数用来处理字符串。也包含了新字符串格式的类。 * struct:struct模块被用来在python和二进制结构间实现转化。 * unicodedataunicodedata模块提供访问unicode字符数据库 5) python数据库访问 * 关系型数据库拥有共同的规范Python Database API Specification V2.0,MySQL,Oracle等都实现了此规范,然后增加自己的扩展。 * sqlite3: sqlite3 模块提供了SQLite数据库访问的接口。SQLite数据库是以一个文件或内存的形式存在的自包含的关系型数据库。 * DBM-style 数据库模块python提供了打了的modules来支持UNIX DBM-style数据库文件。dbm模块用来读取标准的UNIX-dbm数据库文件,gdbm用来读取GNU dbm数据库文件,dbhash用来读取Berkeley DB数据库文件。所有的这些模块提供了一个对象实现了基于字符串的持久化的字典,他与字典dict非常相似,但是他的keys和values都必须是字符串。 * shelve:shelve模块使用特殊的“shelf”对象来支持持久化对象。这个对象的行为与dict相似,但是所有的他存储的对象都使用基于hashtable的数据库(dbhash,dbm,gdbm)存储在硬盘。与dbm模块的区别是所存储的对象不仅是字符串,而且可以是任意的与pickle兼容的对象。 6)文件和目录处理 * bz2:bz2模块用来处理以bzip2压缩算法压缩的文件。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值