关于字符编码

horsewander

于 2016-02-14 15:05:45 发布

阅读量350

点赞数 1

分类专栏：计算机基础文章标签：编码二进制

计算机基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

--MySummary

标识符：表示类、变量、方法

以字母、下划线、美元符号开头，其他可包含数字

不能是关键字，java的标识符区分大小写（强类型语言）

字符集：一套编码与标识符对应关系表，一个字节=8位二进制，可表示256个字符

两个字节=16位=65536个字符

常用字符集：两条线路ISO8859-1西欧字符集拓展来的

两条拓展路线：

ISO8859-1 -> GB2312 -> GBK -> GB18030

一个字节 -> 两个字节（常用中文，包含ISO88590-1的字符）-> 在GB2312增加繁体字 -> 增加其他民族字符

ISO8859-1 -> Unicode 国际通用字符集

乱码问题：经常是编码、解码不是同一个字符集引起的

Unicode （UTF-8/ UTF-16）

Unicode 两个字节表示一个字符

由于网络上发送或存储将增加一位的空间，

因此，编码Unicode 时，存储和发送用UTF-8，字母还是1个字节，阿拉伯文2个字节，中文3个字节

--下文引自转载文章：

当我们打开编辑器coding时，按下ctrl+s的那一刻，其实等于是将自己的工作成果存储进了计算机，而这里最关键的是我们以什么字符编码来进行存储。

如，是以UTF-8编码方式进行coding，当我们按下ctrl+s时，则此文档以utf-8编码方式存储进了计算机（右下角的UTF-8），而head区域中的<meat charset="utf-8">的作用则是告诉浏览器此文档以utf-8编码方式编码。我们此时用Hex编辑器打开这个文件，来看看他的二进制流：

乱码的原因--罪魁祸首：编辑器默认编码。每个编辑器都会有默认编码，如果没有为一个项目单独设置过默认编码，打开一个单独的文件，编辑器往往以自己的默认编码去解码这个文件

所以编辑器也是一个因素，DW则可以智能判断文件的编码方式，上述文件用DW打开并不会乱码，而intellij可能对中文的支持并不是很好，所以还不能智能判断中文编码，默认以UTF-8解码（当然默认编码自己是可以修改的）。

有时浏览器打开网页乱码和编辑器打开一个文件乱码的原理是一致的：即编辑器编码时所采用的字符编码和解码时所采用的字符编码不一致。上述栗子，我们在coding时采用的是GBK编码，但头部却告诉浏览器这个文档是UTF-8编码，那么浏览器在用UTF-8解码时就会出现了乱码。

更多请参考：

字符编码的前世今生

http://tgideas.qq.com/webplat/info/news_version3/804/808/811/m579/201307/218730.shtml

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。