python 中文转unicode编码_python实现unicode转中文及转换默认编码的方法

本文实例讲述了python实现unicode转中文及转换默认编码的方法。分享给大家供大家参考,具体如下:

一、在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8"转换为中文,实际上这是unicode的中文编码。可用以下方法转换:

1、

>>> s = u'\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8'

>>> print s

人生苦短,py是岸

2、

>>> s = r'\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8'

>>> s = s.decode('unicode_escape')

>>> print s

人生苦短,py是岸

二、另外,在python2的字符编码问题时常会遇到“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: ordinal not in range(128)”的编码错误。

而用以下方法通常可以解决:

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

此方法是将Python2的默认编码ASCII改为 utf-8。但此方法不是一劳永逸的,可能会使一些代码的行为变得怪异。

关于sys.setdefaultencoding('utf-8')的补充:

sys.setdefaultencoding('utf-8')会导致的两个大问题

简单来说这么做将会使得一些代码行为变得怪异,而这怪异还不好修复,以一个不可见的 bug 存在着。下面我们举两个例子。

1. 编码错误

import chardet

def print_string(string):

try:

print(u"%s" % string)

except UnicodeError:

print u"%s" % unicode(byte_string, encoding=chardet.detect(string)['encoding'])

print_string(u"þ".encode("latin-1"))

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

print(key_in_dict('þ'))

输出:

$~ þ

$~ þ

在上面的代码中,默认的 ascii 编码无法解码,þ latin-1 编码 hex 表示是 c3 be ,显然是超出了只有128个字符的 ascii 码集的,引发 UnicodeError 异常,进入异常处理。异常处理则会根据编码探测,用最可能的编码来解码,会比较靠谱地输出 þ 。

而一旦我们将 defaultencoding 设置为 utf-8,因为 utf-8 的字符范围是完全覆盖 latin-1,因此,会直接使用 utf-8 进行解码。c3 be 在 utf-8 中,是 þ。于是我们打印出了完全不同的字符。

可能你们会说我们不会写这样的代码。如果我们写了也会做修正。但如果是第三方库这么写了呢?项目依赖的第三方库就这么 bug 了。如果你不依赖第三方库,那么下面这个 bug,还是逃不过。

2. dictionray 行为异常

假设我们要从一个 dictionary 里查找一个 key 是否存在,通常来说,有两种可行方法。

#-*- coding: utf-8 -*-

d = {1:2, '1':'2', '你好': 'hello'}

def key_in_dict(key)

if key in d:

return True

return False

def key_found_in_dict(key):

for _key in d:

if _key == key:

return True

return False

我们对比下改变系统默认编码前后这俩函数的输出有什么不同。

#-*- coding: utf-8 -*-

print(key_in_dict('你好'))

print(key_found_dict('你好'))

print(key_in_dict(u'你好'))

print(key_found_in_dict(u'你好'))

print('------utf-8------')

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

print(key_in_dict('你好'))

print(key_found_dict('你好'))

print(key_in_dict(u'你好'))

print(key_found_in_dict(u'你好'))

输出:

$~ True

$~ True

$~ False

$~ False

$~ ------utf-8------

$~ True

$~ True

$~ False

$~ True

可以看到,当默认编码改了之后,两个函数的输出不再一致。

dict 的 in 操作符将键做哈希,并比较哈希值判断是否相等。对于 ascii 集合内的字符来说,不管是字节字符类型还是还是 unicode 类型,其哈希值是一样的,如 u'1' in {'1':1} 会返回 True,而超出 ascii 码集的字符,如上例中的 '你好',它的字节字符类型的哈希与 unicode 类型的哈希是不一样的。

而 == 操作符则是做了一次转换,将字节字符(byte string,上面的 '你好')转换成 unicode(u'你好') 类型,然后对转换后的结果做比较。在 ascii 系统默认编码中,'你好'转换成 Unicode 会产生 Warning: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal,因为超出码集无法转换,系统会默认其不相等。当系统编码被我们手动改为 utf-8 后,这个禁忌则被解除,'你好' 能够顺利被转换成 unicode,最后的结果就是,in 和 == 行为不再一致。

问题的根源:Python2 中的 string

Python 为了让其语法看上去简洁好用,做了很多 tricky 的事情,混淆 byte string 和 text string 就是其中一例。

在 Python 里,有三大类 string 类型,unicode(text string),str(byte string,二进制数据),basestring,是前两者的父类。

其实,在语言设计领域,一串字节(sequences of bytes)是否应该当做字符串(string)一直是存在争议的。我们熟知的 Java 和 C# 投了反对票,而 Python 则站在了支持者的阵营里。其实我们在很多情况下,给文本做的操作,比如正则匹配、字符替换等,对于字节来说是用不着的。而 Python 认为字节就是字符,所以他们俩的操作集合是一致的。

然后进一步的,Python 会在必要的情况下,尝试对字节做自动类型转换,例如,在上文中的 ==,或者字节和文本拼接时。如果没有一个编码(encoding),两个不同类型之间的转换是无法进行的,于是,Python 需要一个默认编码。在 Python2 诞生的年代,ASCII 是最流行的(可以这么说吧),于是 Python2 选择了 ASCII。然而,众所周知,在需要需要转换的场景,ASCII 都是没用的(128个字符,够什么吃)。

在历经这么多年吐槽后,Python 3 终于学乖了。默认编码是 Unicode,这也就意味着,做所有需要转换的场合,都能正确并成功的转换。

最佳实践

说了这么多,如果不迁移到 Python 3,能怎么做呢?

有这么几个建议:

所有 text string 都应该是 unicode 类型,而不是 str,如果你在操作 text,而类型却是 str,那就是在制造 bug。

在需要转换的时候,显式转换。从字节解码成文本,用 var.decode(encoding),从文本编码成字节,用 var.encode(encoding)。

从外部读取数据时,默认它是字节,然后 decode 成需要的文本;同样的,当需要向外部发送文本时,encode 成字节再发送。

PS:这里再为大家提供几款Unicode编码转换操作相关工具供大家参考使用:

在线Unicode/中文转换工具:http://tools.jb51.net/transcoding/unicode_chinese

Native/Unicode在线编码转换工具:http://tools.jb51.net/transcoding/native2unicode

在线中文汉字/ASCII码/Unicode编码互相转换工具:http://tools.jb51.net/transcoding/chinese2unicode

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python编码操作技巧总结》、《Python图片操作技巧总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

本文标题: python实现unicode转中文及转换默认编码的方法

本文地址: http://www.cppcns.com/jiaoben/python/189344.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如何使用Python将汉字转换Unicode编码? 可以使用Python内置的字符串函数encode进行转换,例如: ``` python s = '汉字' unicode_s = s.encode('unicode_escape') print(unicode_s) ``` 运行结果为: ``` b'\\u6c49\\u5b57' ``` 其中,b代表这是一个bytes类型的字符串,每个Unicode字符都被转换成形如`\uXXXX`的字符串。如果想要将bytes类型的字符串转换Unicode字符,可以使用decode函数: ``` python s = b'\\u6c49\\u5b57' unicode_s = s.decode('unicode_escape') print(unicode_s) ``` 运行结果为: ``` 汉字 ``` ### 回答2: Python是一种高级编程语言,它支持在编程过程中处理和转换中文字符,其中的一个常见处理方式就是将中文字符转换Unicode编码。 首先,我们需要了解什么是Unicode编码Unicode是一种字符编码标准,它为每个字符分配了一个唯一的数字,这个数字在计算机内部表示该字符。这个数字也称为码位(code point),而码位对应的十六进制表示就是Unicode编码。 在Python中,我们可以使用内置的函数ord()将一个字符转换Unicode编码。例如: ```python c = '中' print(ord(c)) ``` 以上代码输出的结果为:20013 这里的变量c表示中文字符'中',ord()函数将该字符转换Unicode码位,即该字符在Unicode编码表中对应的数字。 如果需要将一整个字符串中的所有中文字符转换Unicode编码,则可以使用Python的字符串方法encode()。该方法可以将一个字符串编码成指定的编码格式,例如UTF-8、GBK等。示例如下: ```python s = '我爱Python' s_unicode = s.encode('unicode_escape') print(s_unicode) ``` 以上代码输出的结果为:b'\\u6211\\u7231Python' 在这个例子中,我们先定义一个字符串s,其中包含了中文字符。接着,我们使用字符串方法encode()将整个字符串编码Unicode编码格式(unicode_escape)。注意,该方法返回的是一个bytes类型的对象,因此需要加上b前缀。 最后,我们可以使用内置的函数chr()将一个Unicode码位转换成对应的字符。因此,如果需要将Unicode编码转换中文字符,可以这样做: ```python s_unicode = b'\\u6211\\u7231Python' s = s_unicode.decode('unicode_escape') s_chinese = '' for i in s.split('\\u'): if len(i) > 0: s_chinese += chr(int(i, 16)) print(s_chinese) ``` 以上代码的输出结果为:我爱Python 在这个例子中,我们先定义一个bytes对象s_unicode,其中包含了Unicode编码的字符串。接着,我们对该对象使用字符串方法decode(),将其解码成Python字符串(str)类型。接下来,我们使用split('\\u')方法将字符串分成多个部分,每个部分对应一个Unicode码位。最后,我们使用内置函数chr()将每个Unicode码位转换成对应的字符,并将它们拼接起来,得到最终的中文字符串。 需要注意的是,以上代码适用于Python 3.x版本。如果使用的是Python 2.x版本,则需要对上述代码稍作修改才能正确转换中文字符串。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值