一、文本编码
文本文件存储的内容是基于字符编码的文件,常见的编码有ASCII码、UNICODE编码等
1、ASCII编码
一个ASCII编码在内存中占用1个字节的空间,计算机中只有256个ASCII字符 (2的8次方)
2、UNICODE编码
计算机中使用1-6个字节来表示一个UTF-8字符,涵盖了地球上几乎所有地区的文字
大多数汉字会使用3个字节标识
UTF-8是UNICODE的一种编码格式
<python2默认使用ASCII,python3默认使用UNICODE>
如何在python2中使用中文?
在文件的第一行增加:
# *-* coding:utf8 *-*
3、unicode字符串
在python2中,即使指定了文件使用utf-8编码格式,但是在遍历字符串时,仍然会以字节为单位遍历字符串,而大多数中文会使用3个字节来标识。
要能够正确遍历字符串,在定义字符串时,需要在字符串的引号前面,增加一个小写字母 u,告诉解释器这是一个unicode字符串。