字符集

常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。

ASCII字符集, 也被称为西欧字符集,他一般用来显示现代英语和西欧字符,他是现今最通用的单字节编码系统。技术特征
7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。
扩展字符集
7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。
ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。

GB2312,全称为《信息交换用汉字编码字符集·基本集》。

其采用了分区标示的方式,对接收的汉字采用了分区处理,每区含有94个汉字/符号。这种表示方式也称为区位码。使用了双字节存储的方式  ,第一位被称为高字节,第二位被称为低字节。

BIG5,贪玩使用的繁体汉字字符集。

 GB18030,GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。

unicode,是一种在计算机上使用的字编码,他唯美种语言的每个字符设置了唯一的二进制编码,Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

UTF-8,是一种针对unicode的可变长字符编码,又被称为万国码,utf-8用一到六个字节来编码unicode字符,如果UNICODE字

符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。

UTF-16,相对utf-8而言,utf-16的大多数字符采用的是固定长度字节编码(多位两字节),但其却无法兼容ascii编码。为了弄清楚UTF-16文件的大小尾序,在UTF-16文件的开首,都会放置一个U+FEFF字符作为Byte Order Mark(UTF-16LE以FF FE代表,UTF-16BE以FE FF代表),以显示这个文字档案是以UTF-16编码,其中U+FEFF字符在UNICODE中代表的意义是ZERO WIDTH NO-BREAK SPACE,顾名思义,它是个没有宽度也没有断字的空白。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值