字符编码

   本文以REBOL为例进行说明。如下图所示:


 

 图1


    大多数在ASCII之后出现的编码都会以兼容于ASCII为目标,毕竟ASCII在英文世界是主流。在兼容于ASCII的情况下,能够使用Unicode所有的文字,就要使用变动长度的编码UTF-8。
    UTF-8编码遇到ASCII中的字符,会采用一个字节编码;遇到某些字符(包括欧洲一些国家的语言)采用两个字节编码;遇到某些文字(尤其中日韩文字)采用三个字节编码,甚至某些字符采用四个字节编码。


图2


    将内部格式转化为外部格式,成为编码(encoding)。将外部格式转化为内部格式,称为解码(decoding)。我们可以采用to-binary函数把文字编码成UTF-8,采用to-string把UTF-8解码成内部的UTF-16BE。


图3


(注意:ASCII码兼容于UTF-8)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 18
    评论
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值