Python_编码

最新推荐文章于 2021-01-29 03:49:43 发布

sam-X

最新推荐文章于 2021-01-29 03:49:43 发布

阅读量490

点赞数

分类专栏：编程语言文章标签：编码乱码 utf-8 unicode

本文链接：https://blog.csdn.net/u010945683/article/details/42521521

版权

编程语言专栏收录该内容

12 篇文章 0 订阅

订阅专栏

ASCLL是以前了解得最多的编码系统，使用一个字节表示128个字符，表示数字、字母以及一些符号。但是世界上有很多种语言，每种语言既然能在电脑上表示，就有自己的编码系统，诸如GBK、GB2312等一些编码。但是不同的编码系统之间肯定会发生冲突，相同的编码在不同的系统中表示的符号也不一样，这就出现了有时遇到的乱码。为了解决这个问题，引入了为不同文字统一编码的编码格式——Unicode，因此也被称做万国码。

Unicode

Unicode 编码系统，可分为编码方式和实现方式两个层次。在编码方式上，有UCS-2和UCS-4两种形式，UCS-2使用两个字节编码，UCS-4使用4个字节编码。Unicode的实现方式称为Unicode字符集转换格式(UCS Transformation Format)，缩写为UTF，其中包括UTF-7、UTF-8和UTF-16等。UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同，UTF-8编码的最大长度是4个字节。

从Unicode到UTF-8的编码方式如下：

BOM

Byte Order Mark，中文名译作“字节顺序标记”。软件在保存Unicode时会在文件最开始的地方插入不可见的字符，即BOM。这是由于Unicode存储有字节顺序的问题。如“三”这个字符用Unicode表示时为OX4e09，如果存储时4e在前面，称为大端模式(big endian)，将09放在前面则称为小端模式(little endian)。因此为了表明字节的顺序，规范中推荐使用BOM，在UCS 编码中有一个叫做 "Zero Width No-Break Space" ，中文译名作“零宽无间断间隔”的字符，它的编码是 FEFF，而 FFFE 在 UCS 中是不存在的字符，因此通过在文件头插入这两个字节，以便判断Unicode的字节顺序。UTF-8是使用字节来编码的，因此一般不需BOM来表明字节顺序，但是可以通过BOM来表明编码方式。UTF-8的"Zero Width No-Break Space"为EF BB BF。因此如果收到以这三个开头的文件，就可以判定是UTF-8编码格式。

Python

编码声明

Python中默认的编码格式是ASCII编码，因此当使用其他编码格式编辑源码时，应在源文件头加入编码声明。以下是编码声明的几种方式：

# coding=encoding name

# -*- coding: encoding name -*-

编码转换

在读出文件内容或者处理字符串时，也许会遇到乱码问题，这时就需要对相应的字符串进行解码和编码。这里会用到两个函数decode()和encode()。

s.decode([encoding[,errors]])          #将指定编码格式转换为Unicode
s.encode([encoding[,errors]])          #将Unicode转换为指定编码格式

ASCII码表

sam-X

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python_编码

ASCLL是以前了解得最多的编码系统，使用一个字节表示128个字符，表示数字、字母以及一些符号。但是世界上有很多种语言，每种语言既然能在电脑上表示，就有自己的编码系统，诸如GBK、GB2312等一些编码。但是不同的编码系统之间肯定会发生冲突，相同的编码在不同的系统中表示的符号也不一样，这就出现了有时遇到的乱码。为了解决这个问题，引入了为不同文字统一编码的编码格式——Unicode，因此也被称做万国
复制链接

扫一扫

专栏目录