话说ASCII,Unicode,UTF-8

原创 2016年06月01日 23:48:14

重新温习了一下python2(廖雪峰的教程很赞),希望能够温故而知新一点,对学过的东西不要只是肤浅地理解,这也符合人的认知规律(螺旋式的上升)。

看到字符串编码的时候,想搞明白Unicode和UTF-8到底是什么,有什么关系,因为平时都是无脑用UTF-8,大概知道它是个可变长的编码方案,并且能够对目前世界上所有的文字编码(真的吗?其实没那么夸张啦,只是涵盖了绝大部分会用到的,目前Unicode标准还在不断地修改和扩展中,参见wiki:Unicode)。

上图是教程里写的一段话。

google了一下,发现了字符编码笔记:ASCII,Unicode和UTF-8(阮一峰的网络日志)总结得很好的一篇文章,大意是说——Unicode只是规定了字符的二进制表示,但是具体在内存里的表示,没有规定,这就造成了有多种具体的表示方案了,UTF-8就是其中的一种(前缀码)。

wiki则解释得更加详细啦:

Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)。

不过python3里统一使用Unicode编码了,所以就不用傻傻分不清楚了,不过了解清楚其意思和实现,对于整体的理解还是很有帮助的(不要依赖于code candy)。

字符编码笔记:ASCII-Unicode和UTF-8

  • 2017年09月22日 13:59
  • 58KB
  • 下载

ASCII Unicode 和UTF-8区别

  • 2012年11月05日 20:30
  • 118KB
  • 下载

ASCII GBK UNICODE UCS-2 UCS-4 UTF-8 UTF-16 UTF-32 一次说个明白

ASCII(American Standard Code for Information Interchange,美国信息互换标准代码) GBK 全称《汉字内码扩展规范》(GBK即“国标”、“扩展”...

ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII、Unicode、GBK和UTF-8字符编码的区别联系 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把...

字符编解码的故事(ASCII,GBK,Unicode,Utf-8区别)

此文为转载,有少许修订,原文出处不详。 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节"。...

Java中的ASCII、Unicode和UTF-8字符编码集

有Javaer在留言板提议让我专门发一篇关于ASCII和Unicode的日志,特此搜集整理一篇文章发出来,希望大家能够满意。   首先讲一下几种字符的编码方式: 1. ASCII码 ...

ASCII,UTF-8,Unicode字符串相互转换

[cpp] view plaincopyprint? #include   #include   #include   using namespace std;    //utf8 ...

ASCII、Unicode、GBK和UTF-8字符编码的区别联系

转载:http://dengo.org/archives/901 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:话说ASCII,Unicode,UTF-8
举报原因:
原因补充:

(最多只允许输入30个字)