上一篇文章《HTML基本标签》提到了UTF-8。今天我们来了解一下UTF-8。
UTF-8其实是一种解码方式。它用于中文以及其它一些世界上常用的语言。
解码方式是什么?
要知道,计算机是根本不认识中文的。它只认识0101的二进制代码。那么它想要记住这些字符就需要将它转换成它认识的二进制。具体怎么转换请看下图。
它就是这么记住每一个字符的。放到显示器上也一样,毕竟显示器就是一个一个小方块(像素点)组成的。所以你写的文章就是有多么精彩,计算机也不感兴趣。因为对它来说,那只不过是一串串0101而已。
但是,一串二进制可以有多种解码方式。用其它的解码方式解出来的字符可能只是一个一个的小方块或其它不堪入目的玩意。见下图
从这张图片就可以看出,你是多么的依赖一个合适的解码方式。我们来依次说几种常用的。
最早的解码方式:ASCII。这个解码方式又叫做美国信息交换标准代码。既然是用于美国的,很明显是一堆英文。用它来解中文字符的话,就会出现上图的情况。之所以把最早的划掉是因为后面还有一位更早的。
最难用但是计算机最喜欢的:BINARY。这个解码方式很简单,就是二进制。这个也是最早的解码方式之一。之所以说它是计算机最喜欢的,就不用说了吧。
最常用的:Unicode。这个解码方式可以说是万国码。它包含了各国语言,只有你想不到的。
还有一种常用的解码方式就是UTF-8。它和Unicode差不多,都可以算得上是万国码。
但是如果你的文章中还有一些异体字,可以使用GB28281。这是中国国标编码方式,包含常用的汉字、表情以及一些异体字。
看完这篇文章后有没有明白什么是编码了呀?再见ヾ( ̄▽ ̄)Bye~Bye~。