一、计算机只能处理数字。
在显示器上看见的文字、图片等信息在电脑里面其实并不是我们看见的样子,即使你知道所有信息都存储在硬盘里,把它拆开也看不见里面有任何东西,只有些盘片。假设,你用显微镜把盘片放大,会看见盘片表面凹凸不平,凸起的地方被磁化,凹的地方是没有被磁化;凸起的地方代表数字1,凹的地方代表数字0。硬盘只能用0和1来表示所有文字、图片等信息。
最早的计算机在设计的时候,采用8个比特(bit)作为一个字节(byte)。比特简写为小写字母‘b’,字节简写为大写字母‘B’。1B=8b。
一个字节能表示的最大整数是255(即11111111)。
思考:1)、如果想要表示更大的数字,怎么办呢?答:那就多个字节使用。比如2个字节,表示的最大数是65535,4个字节表示的最大数是4294967295。
2)、一个英文多少个字节呢?答:一个字节(即八个比特,简写为8b,也可以写成1B)。
3)、一个汉字多少个字节呢?答:两个字节。
4)、一篇10万汉字的小说,如果我们把它存到磁盘里,需要多少空间?200000B=200000/1024KB=200000/1024/1024MB,大约0.19MB。
二、编码的发展
1)最早在美国,ASCII编码。只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,比如大写字母A的编码是65,小写字母z的编码是122;
2)中国制定了GB2312编码,用来把中文编进去;
3)Unicode,把所有语言都统一到一套编码里,这样就不会再有乱码问题了;
4)UTF-8,本着节约的精神,把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。
(我大体知道了电脑只能存储数字,所以我们电脑存储的时候,是要将图形文字等转换的为数字的;为了不乱码,编码用Unicode;为了既不乱码,又节约空间,UTF-8比较好;为了对方能够很好地解析你的文件,你需要提前告知对方你用的什么编码格式,否则可能解析出不同的内容来。)
第一次接触很多的编码知识,虽然有点乱,但是却是写的自己学到的。感觉学习是由点及面吧,所以下次再了解编码知识的时候我将把这些散乱的点深入连接成面。
字符编码学习小记一
最新推荐文章于 2022-10-05 14:00:55 发布