Unicode是什么东西,通常情况下我们不会被它困扰,但如果它引起了问题,我们往往找不到方向。
找到了一个 不错的Howto,而且结合了Python对unicode的处理,贴到这里,慢慢读,呼唤耐心。
先把一些摘要翻成中文放在这里:
1. 为什么会有Unicode?
ASCII是我们最熟悉的编码方式,它用一个字节(8位)表示一个字符,但是它显示不能容下全世界各种不同语言(比如我们中文)和各种不同符号(比如各种英文音标)。于是就有了Unicode,它是兼容ASCII的,即:
0-127的unicode编码方式和ASCII是一样的。 超过127的字符编码方式就开始复杂了,详情见原文。
2.在python中如果要支持unicode该怎么办?
我们通常采用utf-8这个unicode的子集作为支持多语言显示的编码方式。因此在python脚本开头的的地方需要加入
#encoding=utf-8
其实这只是告诉python, 脚本的字符是用utf-8编码的。
如果程序在执行过程中可能会用到utf-8编码, 程序通常会报"UnicodeDecodeError" , 怎么办?
可以在程序中加入
reload(sys).setdefaultencoding('utf-8')
为什么是reload, 而不是import呢?
site.py中已经把setdefaultencoding删除了。
3.什么是encode,什么是decode?
把一个字符转成编码的数字叫encode;
反之把编码转成字符叫decode
找到了一个 不错的Howto,而且结合了Python对unicode的处理,贴到这里,慢慢读,呼唤耐心。
先把一些摘要翻成中文放在这里:
1. 为什么会有Unicode?
ASCII是我们最熟悉的编码方式,它用一个字节(8位)表示一个字符,但是它显示不能容下全世界各种不同语言(比如我们中文)和各种不同符号(比如各种英文音标)。于是就有了Unicode,它是兼容ASCII的,即:
0-127的unicode编码方式和ASCII是一样的。 超过127的字符编码方式就开始复杂了,详情见原文。
2.在python中如果要支持unicode该怎么办?
我们通常采用utf-8这个unicode的子集作为支持多语言显示的编码方式。因此在python脚本开头的的地方需要加入
#encoding=utf-8
其实这只是告诉python, 脚本的字符是用utf-8编码的。
如果程序在执行过程中可能会用到utf-8编码, 程序通常会报"UnicodeDecodeError" , 怎么办?
可以在程序中加入
reload(sys).setdefaultencoding('utf-8')
为什么是reload, 而不是import呢?
site.py中已经把setdefaultencoding删除了。
3.什么是encode,什么是decode?
把一个字符转成编码的数字叫encode;
反之把编码转成字符叫decode