字符集与编码格式

参考:

字符集与编码格式


引用文章内容:

  • 中国通过对 ASCII 编码的中文扩充改造,产生了GB2312 编码,可以表示6000多个常用汉字。
  • 汉字实在是太多了,包括繁体和各种字符,于是产生了 GBK 编码,它包括了 GB2312 中的编码,同时扩充了很多。
  • 中国是个多民族国家,各个民族几乎都有自己独立的语言系统,为了表示那些字符,继续把 GBK 编码扩充为 GB18030 编码。
  • 每个国家都像中国一样,把自己的语言编码,于是出现了各种各样的编码,如果你不安装相应的编码,就无法解释相应编码想表达的内容。
  • 终于,有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 UNICODE ,这种编码非常大,大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统,无论是全球哪种文字,只需要保存文件的时候,保存成 UNICODE 编码就可以被其他电脑正常解释。
  • UNICODE 在网络传输中,出现了两个标准 UTF-8 和 UTF-16,分别每次传输 8个位和 16个位。
    于是就会有人产生疑问,UTF-8 既然能保存那么多文字、符号,为什么国内还有这么多使用 GBK 等编码的人?因为 UTF-8 等编码体积比较大,占电脑空间比较多,如果面向的使用人群绝大部分都是中国人,用 GBK 等编码也可以。但是目前的电脑来看,硬盘都是白菜价,电脑性能也已经足够无视这点性能的消耗了。所以推荐所有的网页使用统一编码:UTF-8
纠正:最后一段:UTF-8是可变长编码,使用8-32位变长编码。那为什么内容包含中文较多的网站,使用GBK编码呢?因为此种情况下,使用GBK编码要比UTF-8编码节约空间。原因在于:UTF-8对于汉字采用3字节存储,原ASCII码采用1字节存储;而GBK对原ASCII码和汉字都采用2字节存储,固然在纯中文不可考虑国际化的情况下,使用GBK更节约空间。但是,若是英文也比较多或者考虑通用性(老外也想看你的网页)就要考虑UTF-8编码了。

个人总结:以后的项目开发,应该使用UTF-8编码。

如何解决GBK乱码问题?(通过个人遇到的问题,进行总结)


问题一:我使用的是Mac,从Windows copy过来的文件,解压出来是乱码。

解决方案:
使用压缩软件The Unarchiver进行解压。
在解压之前,请设置 Filename encoding : Detect automatically(一般默认就是这个)


To be continued... ....





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值