字符集与编码

  • ASCII
  • ASCII的扩展(DBCS, MBCS)
    • ISO-8859-1 【欧洲使用】
    • GB2312:常见汉字与符号,一级汉字拼音序 【最早的国标,包含了2312个常用汉字】
    • GBK:繁体字
    • GB18030:少数民族字符
    • BIG5/JIS…

 

  • 常见的编码与字节
    • 单字节:ASCII/ISO-8859-1
    • 双字节:GB2312/UTF-16
    • 变字节:UTF-8/UTF-7

 

 

  • 实际例子,以 汉字 "中" 为例:
  • 示例:中(GB:D6D0,U:E4B8AD)

 

汉字在传输过程中,会进行再编码,对于特殊字符,如"《","\",中文等都会以 "%"的形式来进行再编码。

网页中的再编码:

  • GB2312再编码:%D6%D0
    http://www.baidu.com/s?wd=%D6%D0&tn=16site_pg 还原:D6D0 代表为 "中"
  • UTF8再编码: %E4%B8%AD
    http://www.baidu.com/s?wd=%E4%B8%AD&&tn=16site_pg&ie=utf-8
  • 说明: 百度的数据传输使用两个字节的GBK编码,这样传输速率会更高。

     

    在编码语言中的应用:

    JS中—再编码

    encodeURI : 无论数据传递过来是什么编码,全部转成UTF-8编码

    encodeURIComponent : 针对 还有 "/","<"等 特殊字符的编码来进行 utf-8编码的转换。

     

    JS---解码

    decodeURI : 将进行再编码的字符进行解码--- 主要针对没有包含有 特殊字符的字符类型。

    decodeURIComponent : 针对 还有 "/","<"等 特殊字符的编码来进行 utf-8编码的转换。

             

 

 

encodeURIComponent:

 

 

 

 

  • 文本编码的查看:

               判断一个文本文件是使用什么编码: 可以查看文字的字节序(使用UltraEdit 转换成十六进制来查看)

 

  • BOM(Byte Order Mark)
  • FEFF:Big-endian
  • FFFE:Little-endian
  • EF BB BF:UTF-8

 

 

记事本中来修改编码格式.

 

ANSI形式

在windows下的ANSI: 这种字符类型,意思就是说与操作系统的字符编码相一致,如在中文的windows版本中,它的编码默认为GBK编码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值