Python | 文本编码

一、文本编码

文本文件存储的内容是基于字符编码的文件,常见的编码有ASCII码、UNICODE编码等

1、ASCII编码

一个ASCII编码在内存中占用1个字节的空间,计算机中只有256个ASCII字符 (2的8次方) 

2、UNICODE编码

计算机中使用1-6个字节来表示一个UTF-8字符,涵盖了地球上几乎所有地区的文字

大多数汉字会使用3个字节标识

UTF-8是UNICODE的一种编码格式 

<python2默认使用ASCII,python3默认使用UNICODE>

如何在python2中使用中文?

在文件的第一行增加:

# *-* coding:utf8 *-*

3、unicode字符串

在python2中,即使指定了文件使用utf-8编码格式,但是在遍历字符串时,仍然会以字节为单位遍历字符串,而大多数中文会使用3个字节来标识。

要能够正确遍历字符串,在定义字符串时,需要在字符串的引号前面增加一个小写字母 u,告诉解释器这是一个unicode字符串。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值