编码简述

本文简述了计算机字符编码的历史,从最初的ASCII码到解决多语言问题的Unicode,再到节省空间的UTF-8编码。Unicode统一了各种语言的编码,避免乱码,而UTF-8则通过变长编码优化了空间利用,尤其适用于包含大量英文的文本。Python 3中的字符串默认使用Unicode编码。
摘要由CSDN通过智能技术生成

ASCII码
计算机只能认识0和1这两个数。因此,在处理文本的过程中,就需要将对应的字符转换为计算机可以识别的数字。这样就需要给每一个字符对应一个字符,然后再转化成二进制的数。
计算机最早是由美国人发明出来的,所以最一开始的编码只有数字、英文字母(大写和小写)以及一些标点符号等127个字符编码,这就是最早的ASCII码。例如:大写字母’C’对应的编码是67,逗号’,'对应的编码是44。每个字符占用1个字节byte(8bit)。后来,世界各个国家也都有了计算机,相应的文本语言也需要用计算机来处理。显然,127个字符编码对于各国来说根本不够用,各个国家因此建立了属于自己国家的编码方式。这样带来的问题,就是在多语言混合的文本中,就会出现不符合编码的乱码现象。(小时候看过电子书的应该会有这样的体验)

Unicode
为了解决多语言混合文本在单独编码下的乱码现象,Unicode应运而生。
Unicode将所有语言都统一到了同一编码体系下,这样就不会出现乱码的情况。目前,几乎所有的OS和大部分编程语言都支持Unicode编码。
与ASCII码的编码方式不同,由于Unicode编码了更多的语言,所以相应的编码长度就有所加长。大部分的Unicode编码是2个字节byte(16bit),对于一些比较少用的,如汉语中的生僻字会用4-6个字节进行编码。

UTF-8
乱码的问题解决了,新的问题又出现了。
如果在一个全英文的文本中,ASCII码完全可以表示,但是用Unicode编码所占用空间是

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值