【程序员常识】为什么会有Unicode,UTF-8以及ASCII等编码?(中文注释的坏处及中文乱码的原因) 时间2021/12/6

前言

在这里插入图片描述

最近在学python,突然发现了这个东西。

# -*- coding: utf-8 -*-

请添加图片描述
原来这东西是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

突然想起了有些时候我以前喜欢写一些中文注释,但是当我换了别的代码编辑器时,我辛辛苦苦写的注释就变成了一团乱码。

请添加图片描述

然后我就从网上寻找解决方法,反正都是具体的解决方法,如下图所示,反正改完也是蒙蒙的。
在这里插入图片描述

所以我就产生好奇,看完编码的前世今生后,我终于晓得原来出现乱码的原因就是因为编码类型不同,翻译出来就飞了,变成所谓的乱码,只要选择同样的编码类型就行了。

这时,作为中文注释爱好者的我就想问了:为啥要有这么多的编码类?假如只有一种,那么就没有那么多烦恼了。
请添加图片描述

回答

首先要理解下面这些概念。
在三者中,ASCII是最先有的编码,它能够使用 32 到 127 之间的数字来表示每个字符,它的出现是因为当时的计算机都是8 位字节,且基本都是英语(懂得都懂),所以他们没有考虑到别的语言。

后面计算机开始发展,别的语言也需要表示啊,所有不同的国家就用后面128到255位各自代表了自己的语言, 例如,在某些 PC 上,字符代码 130 将显示为 é,但在以色列销售的计算机上,它是希伯来字母 Gimel(ג),总结来说就是因为编码的规则不同,同样的字符代码在不同国家的机器上被翻译成了不同意思,也就成了乱码。

所以后面就有人提出了Unicode这种编码,也就是统一码的意思,大家都用同一种编码形式,那么这样大家就有了同样的语言,就不会出现乱码了。

而UTF-8呢,其实就是Unicode的一种编码实现方式,它的特点是,可变长的编码方式。

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

趣闻

还有一个趣闻,当时Unicode刚出来的几年里,一直被大多数人忽略,后面推出了UTF-8才慢慢被接受并推广。
大家都知道现在的ASCII编码几乎是可以和UTF-8通用的,但是Unicode最开始推出时,他们两者并不通用,所以要使用英语,也需要和使用其他语言一样去查找Unicode的字母表。

请添加图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值