关于字符编码


--MySummary

标识符:表示类、变量、方法
以字母、下划线、美元符号开头,其他可包含数字
不能是关键字,java的标识符区分大小写(强类型语言)

字符集:一套编码与标识符对应关系表,一个字节=8位二进制,可表示256个字符
两个字节=16位=65536个字符
常用字符集:两条线路ISO8859-1西欧字符集拓展来的

两条拓展路线:
ISO8859-1 -> GB2312                                                               -> GBK                             -> GB18030
 一个字节    ->  两个字节(常用中文,包含ISO88590-1的字符)-> 在GB2312增加繁体字  -> 增加其他民族字符

ISO8859-1 -> Unicode 国际通用字符集
乱码问题:经常是编码、解码不是同一个字符集引起的

Unicode (UTF-8/ UTF-16)
Unicode 两个字节表示一个字符
由于网络上发送或存储将增加一位的空间,
因此,编码Unicode 时,存储和发送用UTF-8,字母还是1个字节,阿拉伯文2个字节,中文3个字节

--下文引自转载文章:
当我们打开编辑器coding时,按下ctrl+s的那一刻,其实等于是将自己的工作成果存储进了计算机,而这里最关键的是我们以什么字符编码来进行存储。
如,是以UTF-8编码方式进行coding,当我们按下ctrl+s时,则此文档以utf-8编码方式存储进了计算机(右下角的UTF-8),而head区域中的<meat charset="utf-8">的作用则是告诉浏览器此文档以utf-8编码方式编码。 我们此时用Hex编辑器打开这个文件,来看看他的二进制流:
乱码的原因--罪魁祸首:编辑器默认编码。每个编辑器都会有默认编码,如果没有为一个项目单独设置过默认编码,打开一个单独的文件,编辑器往往以自己的默认编码去解码这个文件
所以编辑器也是一个因素,DW则可以智能判断文件的编码方式,上述文件用DW打开并不会乱码,而intellij可能对中文的支持并不是很好,所以还不能智能判断中文编码,默认以UTF-8解码(当然默认编码自己是可以修改的)。

有时浏览器打开网页乱码和编辑器打开一个文件乱码的原理是一致的:即编辑器编码时所采用的字符编码和解码时所采用的字符编码不一致。上述栗子,我们在coding时采用的是GBK编码,但头部却告诉浏览器这个文档是UTF-8编码,那么浏览器在用UTF-8解码时就会出现了乱码。

更多请参考:







  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值