字符发展历史

基础知识:

  1. 计算机存储的数据基本单位是位(bit) 也是所谓的二进制数据(0 和 1)
  2. 计算机传输的数据基本单位是字节(byte) 一个字节由八个位组成 因此一个字节有256种表现形式

js中的进制:

  1. 0b 二进制
  2. 0o 八进制
  3. 0x 十六进制

js中的进制转换:

  1. 把任意进制转化为十进制parseInt()
  2. 把十进制转化为任意进制toString()

ASCII:
最开始的电脑只在美国使用 而ASCII是美国人编出来供自己使用的一套字符编码 0-32规定了特殊用途 然后又从32之后把所用的空格,标点,数字,大小写字符一直编到了127 这样就可以通过一个字节表示美国人需要用到的字符

GB2312:
中国人为了表示汉字 在ASCII基础上(也就是127之后)规定了一个小于127的字符的意义与原来相同 但两个大于127的字符连在一起时就表示一个汉字;前面的一个字节称为高字节(0xA1-0xF7) 后面一个字节称为低字节(0xA1-0xFE);这样我们就可以组合出大约7000多个(247 - 161) * (254 - 161) = (7998)简体汉字了;另外还把原来的ASCII编码中的字符都重新编码成了两个字节长度的编码 这就是全角字符 127一下的那些就叫做半角字符;把这种汉字方案叫做GB2312 这是对ASCII的扩展

GBK:
由于中国汉字太多 于是干脆不在要求低字节(也就是第二个字节)一定是127之后 只要第一个字节是大于127就表示这是一个汉字的开始 便又增加了近两万个新的汉字(包括繁体)和符号

GB18030 / DBCS:
后来又加了几千个新的少数民族的字 GBK扩展成了GB18030 通常也叫做DBCS(双字节字符集)

Unicode:
由于这样编码每个国家都需要一套字符集 于是ISO国际组织废弃了所有地区性编码方案 重新搞了一个包含地球上所有文化,所有字母和符的编码 Unicode是一个很大的集合 现在规模可以容纳100多万个符号
Unicode通常用两个字节表示一个字符

UTF-8:
Unicode在很长一段时间无法推广 直到互联网的出现 为了解决传输的问题 于是面向传输的众多UTF标准出现
UTF-8就是互联网上使用最为广泛的一种Unicode的实现方式
UTF-8就是每次以8个位为传输单位
UTF-8最大的特点就是他的一种变长的编码方式
Unicode一个中文字符占两个字节 而UTF-8占3个字节
UTF-8是Unicode的实现方式之一

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值