字符集详解

我们一般通常使用的字符集有:ASCII ISO-8859-1 GB2312 big5 GBK Unicode2.0,另外还有一种基于32位的GB18030字符集是国家新出来的一种字符集,其为一个汉字设计了4个字节,因此可以说是目前为止,对汉字支持无论是简体还是繁体都是支持比较好的一种,当然主要的缺点就是太占空间,不利于在网路上传输。

如果不考虑GB18030字符集的话,最详尽的字符集应该是Unicode了,差不多支持了GBK所支持的所有汉字不敢过总量上还是稍微差一点。GBK尽管不是国家标准,但是已经成为事实上的一个行业标准,同时支持汉字的简体和繁体两种字体。比Gig5和GB2312强大些,为了更加明确的说明各个字符间的差异,先详细说明如下:


  • ASCII:
    7位字符集,包括52个大小写英语字母,10个阿拉伯数字,1个空格,32个符号。
    适用于纯英文环境,兼容性最好,在其他各种字符集下都能正确识别;不适用于英语以外的环境。

  • Latin1(ISO-8859-1):
    8位字符集,向下兼容ASCII字符集,并增加了一些西欧语言中的字母和符号。
    优点:适用于西欧语种,得到世界广泛的软件支持;
    缺点:不能表示拉丁语系以外的语言,不兼容少量只使用7位字符集的古老程序。

  • GB2312:
    16位字符集,收录有6763个简体汉字,682个符号;
    优点:适用于简体中文环境,属于中国国家标准,在大陆(和新加坡?)得到广泛支持;
    缺点:不兼容繁体中文,其汉字集合过少。

  • big5:
    16位字符集,收录有13060个繁体汉字,440个符号;
    优点:适用于繁体中文环境,属于台湾官方标准,为繁体Windows所使用,在台湾和香港得到广泛支持,而且,由于台湾软件业发展较早,国外软件支持big5的比支持gb2312/gbk的要多;
    缺点: 不兼容简体中文环境,和gb2312之间需要转换。

  • GBK:
    16位字符集,收录有21003个汉字,883个符号;
    优点:适用于简繁中文共存的环境,为简体Windows所使用(代码页cp936),向下完全兼容gb2312;
    缺点:不属于官方标准,和big5之间需要转换。

  • GB18030:
    32位字符集;收录汉字数不详,应该相当详尽。
    优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准;
    缺点:由于空间使用效率低(一个汉字占四个字节),运行速度慢, 目前支持它的软件较少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值