关于字符集的简单介绍

字符集介绍

首先对于java 字符集在我们Java开发中是使用的比较多的,很多的时候都是会遇到我们的关于字符转码的问题,这里首先介绍一个我们比较常用的字符集,当然也是在我们平时编程的时候需要了解的字符集。

ASCII码

ASCII码(美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要现实现代英语和西欧的其他语言。这个也是现在最通用的一种单字节的编码方式。
对于ASCII码来说,在学习C语言时候的时候,都知道ASCII码是由7位或者是8位二进制的数来组合,这样的话对于ASCII码来说一共有256个字符组成。
其中0-31以及127是控制字符,32-126表示字符,其中32表示空格,48~57表示数字的0-9,65-90表示大写的英文字母,而从97-122表示小写的英文字母,中间的内容就是一些标点符号等内容。从128以后就是成为ASCII的扩展码,是用来表示一些特殊的字符。

ISO8859-1

这个表示单字节编码,向下是对ASCII码兼容的,表示的范围是与ASCII是一致的。对于这个字符集来说,主要是用来表示西欧的字符集,也是就是表示用来表示阿拉伯语,西班牙语、意大利语等等语种中的字符。一个字符使用1个字节表示。这里有一个小小的提示,就是ASCII是一个7位的容器,而ISO8859-1是一个8位容器。

BIG5

这被称为是大五码,对于这个字符集在中国台湾地区使用的比较多,这个字符集主要是用来表示繁体的中文,一个字符使用2个字节表示,一共收录了一万三千多汉字,中文码有内码和交换码两大类,Big5属于中文内码,其中比较有名的中文交换码有CCCII、CNS11643等等。

GB2312

对于GB3212大家都是不陌生的,在我们的日常的开发中,是使用比较广泛的简体汉字的一个字符集,一个汉字使用2个字节表示。在平时的开发中都是使用的是这个字符集。
它是在1980年发布的,在中国大陆使用的最多的用于汉字处理、汉字通信等方法。基本上收录了7千多的汉字和非汉字图形。

GBK

这个字符集是对于GB2312的一个扩展集合。在1995年颁布,可以表示中文、日文、韩文等文字,收录的汉字达到2万多个,从它的表示汉字范围来说的要比GB2312表示的多。

GB18030

国家标准的汉字编码标准主要是在GBK的基础上,增加了对CJK(中文、日文、韩文)统一汉字的扩充。内部的原理与GBK是相同的。而对于GB18030来说他被作为是GB2312 的一个扩展集合来表示,我们知道在中国除了简体汉字之外还有很多的少数民族的文字,当然了要表示这个写少数民族的字符的话使用GB2312来说的话可能使用的不是很好,另外的,在我们平时使用的时候可能会出现很多的比较生僻的汉字,GBK18030就是对这些东西进行的表示扩展

Unicode

这个是国际通用的一个字符集,理论上讲和这个字符集可以表示世界上的任意的字符,也就是说你可以想到的任何的字符都可以使用这个字符集表示。

说道这里需要给大家分清楚一个概念,就是字符集和编码方式。在使用的时候可以说支持什么样的字符集,用什么样的编码方式。而字符集就是我们以上介绍的内容,对于编码方式,可以这样理解,通过什么样的方式将机器码翻译成人可以看懂的字符。这个被称为编码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nihui123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值