UTF-8和GBK编码

最新推荐文章于 2023-08-11 09:49:42 发布

李曾似凡

最新推荐文章于 2023-08-11 09:49:42 发布

阅读量756

点赞数 1

分类专栏：杂货文章标签：编码 utf-8

杂货专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前只大概了解过UTF-8和GBK编码，最近遇到头疼的编码问题，参考一些资料整理了一下作备忘。厚颜写上原创。

更具体的可以参考：http://www.iteye.com/topic/560229

1、简介

在计算机中，所有的数据在存储和运算时都要使用二进制数表示（因为计算机用高电平和低电平分别表示1和0），而为了存储文字和符号，就需要一套文字符号与二进制数的转换规则，就是编码。其中，ASCII码，就是由美国国家标准学会制定的，标准的单字节字符编码方案。标准ASCII 码，使用7 位二进制数来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。

Unicode，是为了解决传统编码在不同国家语言不兼容的问题产生的统一编码，范围为0-0x10FFFF。

GBK，国标，是汉字编码标准之一，由中华人民共和国全国信息技术标准化技术委员会于1995年12月1日制订。使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。

UTF-8，Unicode的一种实现方式，使用1-4个字节来对Unicode编码。

Unicode/UCS-4	bit数	UTF-8	byte数	备注
0000 ~ 007F	0~7	0XXX XXXX	1
0080 ~ 07FF	8~11	110X XXXX 10XX XXXX	2
0800 ~ FFFF	12~16	1110XXXX 10XX XXXX 10XX XXXX	3	基本定义范围：0~FFFF
1 0000 ~ 1F FFFF	17~21	1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX	4	Unicode6.1定义范围：0~10 FFFF