Python中的Unicode問題

這幾天拿了一個題目自己練習寫python,才發現cpython是使用ascii來處理字串,對於unicode處理較不拿手。在這邊介紹一些python中使用unicode的方法。

首先要先確認使用的是script或是直譯器
script就要確認文件的編碼,直譯器則要確定所使用的shell的環境。

使用script的話,在一開始文件編輯列,要先加入宣告,文件編輯軟體(如vi等)才會儲存為UTF-8字元。

# -*- coding: <encoding_name>-*-

例如下面這行就可以宣告本文件應以UTF-8格式儲存:

# -*- coding: utf-8 -*-

這邊可以參考以下網址
http://www.python.org/dev/peps/pep-0263/

若是使用直譯器,就要確定shell的環境變數LANG。

配置字串的時候,將字串配置為unicode格式:
如果LANG=zh_TW.UTF-8:

unicode_str =  unicode('這是中文', 'utf-8')


如果LANG=zh_TW.BIG5:

unicode_str = unicode('這是中文', 'big5')


windows中則shell的環境一定為big5:


也有比較簡單的方法,無論LANG變數為何都可以運作:

unicode_str =  u'這是中文'

之後檢查

>>> type(unicode_str)
(type 'unicode')

如果想要用big5顯示,可以這樣做

print unicode('這是中文', 'utf-8').decode('big5')


另外,raw_input()這個功能也有一些問題

raw_input(u'Please input')
raw_input(u'請輸入')

前者會成功,後者卻會失敗
筆者猜想可能是raw_input依然使用ascii來處理字串的關係。
唯一解決方法就是不要讓raw_input裡面塞入unicode的中文了。


在網站上也另外看到一個文件:

http://czug.org/blog/eishn/sqlobject-dezhongwenbianmawentijijiejuefangan

簡單來說,sys這個module原本有setdefaultencoding這個function,但在啟動腳本setting.py中卻被刪除了。而這個功能可以經由reload(sys)來啟用。

因此可以在script開始時這樣寫入:

import sys
if sys.getdefaultencoding() != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')

很多問題就可以解決囉!

參考網址:
http://evanjones.ca/python-utf8.html

转载于:https://www.cnblogs.com/billy3321/articles/1733350.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值