python设置unicode编码_关于python中的unicode字符串的使用

最新推荐文章于 2022-11-13 11:04:43 发布

weixin_39953236

最新推荐文章于 2022-11-13 11:04:43 发布

阅读量632

点赞数

文章标签： python设置unicode编码

基于python2.7中的字符串：

unicode——》编码encode('utf-8')——》写入文件

读出文件——》解码decode('utf-8')——》unicode

在使用unicode的时候，必须注意以下的原则：

1、程序中出现字符串的地方加前缀u，表示为unicode类型

2、不要使用str函数，在使用的时候使用unicode函数

3、不要使用string模块

4、只有在写入文件或者数据库或者网络的时候，才使用encode函数来进行编码发送；只有在把数据读取回来的时候，才使用decode进行解码

在使用读写unicode数据库的时候，注意几个方面：

1、数据库服务器，例如mysql，只要每个表使用utf-8格式来进行编码即可

2、数据库适配器，例如mysqldb，在connect（）方法中使用use_unicode方法

3、web开发框架，例如django，进行更多的设置

#!/usr/bin/env python

#-*- coding:utf-8 -*- #声明为unicode编码文件，否则会报错

CODEC = 'utf-8'

FILE = 'unicode.txt'

hello_out = u'Hello KEL,中文测试\n'

bytes_out = hello_out.encode('utf-8') #在写入文件的时候进行编码为utf-8，从而保存在文件中的编码为utf-8

f = open(FILE,'w')

f.write(bytes_out)

f.close()

f = open(FILE,'r')

hello_in = f.read()

bytes_in = hello_in.decode(CODEC)#读出文件的时候，进行解码，从utf-8进行解码，解码为unicode类型

f.close()

print bytes_in,以上的程序为当写入文件的时候，必须进行编码，从而在文件中保存为正确的编码格式；在读出文件的时候，进行适当的解码，从而转换为unicode编码来进行处理。

在进行使用unicode编码的时候，必须声明此文件使用的编码类型，否则会报错，报错内容如下：

[root@python 48]# python uniFile.py

File "uniFile.py", line 6

SyntaxError: Non-ASCII character '\xe4' in file uniFile.py on line 6,but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

python对unicode的支持：

1、内建的unicode函数，用来生成unicode函数——通过一个字节串和编码方法显式的创建一个unicode字符串，通常不指定编码方式的字节串是没有任何意义的。

>>> kel = unicode('kel','utf-8')

>>> print kel

kel

>>> kel

u'kel'2、内建的decode方法和encode方法，一个是进行编码，一个是进行解码

3、unicode字符串对象是basestring的子类，使用u或者U来创建实例，在支持原始字符串的时候，可以使用ur或者UR，u必须写在r的前面

>>> kel = ur'this is 汉字'

>>> kel = ru'this is 汉字'

File "", line 1

kel = ru'this is 汉字'

^

SyntaxError: invalid syntax

4、在对象中，如果一个对象包含一个__unicode__()方法，那么可以将一个对象转换为unicode对象

>>> kel = '汉字'

>>> kel

'\xe6\xb1\x89\xe5\xad\x97'

>>> kel.encode('utf-8')

Traceback (most recent call last):

File "", line 1, in

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)在进行编码解码的时候，默认是使用ascii编码来进行解码，如果出现以上错误，或者是UnicodeEncodeError，那么均表示为在进行编码或解码的时候不正确，没有正确的创建一个unicode对象。

1、无论何时，当你的程序接收到来自网络或者文件或者用户输入等的时候，应当立即创造一个unicode对象，找出最合适的编码，使用decode来进行创建unicode对象。

2、无论何时，当你的程序要发送文本数据到网络或者写入文件或者输出等的时候，应该探查正确的编码，并用呢种编码将你的文本转变为字节串，使用encode方法来进行发送数据

创建一个unicode字符串：

>>> kel = unicode('中文string','utf-8')

>>> print kel

中文string将unicode转变为python字符串：

>>> kel = unicode('中文string','utf-8')

>>> print kel.encode('utf-8')将python字符串转变为unicode：

>>> kel = unicode('中文string','utf-8').encode('utf-8').decode('utf-8')

>>> print kel

中文string

将unicode对象转变为字节串，称之为对该字符串进行编码；

从基于字节的对象中载入一个unicode字符串，必须对齐进行解码，将从字节串转换为字符，也就是unicode对象

当处理字节串和unicode编码的时候：

会将字节串转换成unicode编码，在隐式的情况下，并且假设字节串为ascii编码，如果包含非ascii编码，那么将会有unicodedecodeerror的异常发生。

在默认进行转换的时候，都是使用ascii编码进行转换。——从而在每次报错的时候，都是ascii异常编码或者解码异常，

weixin_39953236

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python设置unicode编码_关于python中的unicode字符串的使用

基于python2.7中的字符串：unicode——》编码encode('utf-8')——》写入文件读出文件——》解码decode('utf-8')——》unicode在使用unicode的时候，必须注意以下的原则：1、程序中出现字符串的地方加前缀u，表示为unicode类型2、不要使用str函数，在使用的时候使用unicode函数3、不要使用string模块4、只有在写入文件或者数据库或者网...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。