ASCII(American standard code for information interchange, 美国信息交换标准代码)
7bit表示一个字符,共计可以表示128种字符(2^7)ISO-8859-1
8bit表示一个字符,即用一个字节表示一个字符,共计可以表示256个字符。gb2312 1980年发布,1981年开始实施的一套国家标准
两个字节表示一个汉字GBK 1995年12月1日制订
共收录了21003个汉字,完全兼容GB2312-80标准。从GB字库扩充到GBK字库,增加了1万4千多字。GB18030
GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。
2000年发布的GB18030-2000,全名是《信息技术 汉字编码字符集 基本集的扩充》。
GB18030-2005《信息技术中文编码字符集》是我国自主研制的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个。big5
繁体中文(台湾、香港)unicode
统一用2个字节表示一个字符。
unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。
unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案UTF Unicode Transformation Format
针对Unicode的可变长度字符编码。
unicode是一种编码方式,而UTF是一种存储方式。UTF-8是unicode的实现方式之一。
UTF-8 BOM(byte order mark),一般只在windows系统的文件产生带BOM文件,BOM会在文件开始添加zero width no-break space不可见字符。
UTF-8一般用3个字节表示一个中文。
字符集编码
最新推荐文章于 2022-04-12 22:03:52 发布