什么是UTF8
UTF8并不算是一种电脑编码,而是一种储存和传送的格式,如前所述,每个Unicode/UCS字符都以 2或4个bytes来储存,看看以下的比较:
以"I am Chinese"为例
用ANSI储存:12 Bytes
用Unicode/UCS2储存:24 Bytes + 2 Bytes(header)
用UCS4储存:48 Bytes + 4 Bytes(header)
以"我是中国人"为例
用ANSI储存:10 Bytes
用Unicode/UCS2储存:10 Bytes + 2 Bytes(header)
用UCS4储存:20 Bytes + 4 Bytes(header)
由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,而且也不利于互联网的传输(中文稍为合算一点^_^)。
有见及此,Unicode/UCS的压缩形式--UTF8出现了,套用官方网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』,由于UTF也适用于编码UCS,故亦可称为『UCS transformation formats (UTF)』
UTF8是以8bits即1Bytes为编码的最基本单位,当然也可以有基于16bits和32bits的形式,分别称为UTF16和UTF32,但目前用得不多,而UTF8则被广泛应用在文件储存和网络传输中。
编码原理
为什么要采用UTF-8编码,UTF-8编码有什么好处?
最新推荐文章于 2022-04-23 17:25:43 发布
UTF-8是一种Unicode Transformation Format,用于高效储存和传输Unicode字符。对比ANSI、UCS2和UCS4,UTF-8在存储和网络传输中更具优势,减少空间浪费。每个英文字母和数字占1 Byte,泛欧语系占2 Bytes,汉字占3 Bytes。UTF-8文件通常以EF BB BF作为标识。其编码原理涉及多字节序列,但解码工作由程序完成。尽管存在汉字占用空间较多等问题,UTF-8在网页显示、数据交换等方面具有显著优点。
摘要由CSDN通过智能技术生成