ccs 中文乱码_关于字符集和乱码的思考

本文深入探讨字符集和乱码问题,从基本概念如ASCII、Unicode到GB2312、GBK、UTF-8等编码规则。作者通过实例分析了乱码产生的原因,包括网页、UNIX/Linux终端显示、数据库等方面,并提供了解决方案。此外,还讨论了Windows剪贴板和输入法在不同编码环境下的工作原理。
摘要由CSDN通过智能技术生成

重要提示:本文并非学术文章,本人也并非语言和文字学领域人士,只是出于好奇心,根据自己的理解写下这篇文章。本文的参考文档都来源于互联网,而且并未一一考证其准确性和权威性,因此本文仅供参考。

字符集和字符编码的问题一直困扰着我,之间曾经多次尝试把这个问题理解清楚,但始终由于有些细节问题无法自圆其说因而放弃。网上的资料多数描述过于简单,又或者作者本人对问题也了解不深入,容易产生误导。最近我终于下定决心将之前对“乱码”问题的思考更进一步,否则将始终是一丝遗憾。这里也不得不感叹,老外的“科普”做的好啊,网上有很多质量相当高的文章,表述严密,引用充分,例证丰富,我相信在国内各领域的专家也不少,计算机和语言学方面都有很多有建树的大牛,也许是太忙吧。对我个人而言,最重要的一片文章是“Character set encoding basics”,在本文最后有链接的地址,本人的翻译版本在这里:http://blog.chinaunix.net/space.php?uid=11187&do=blog&id=3034493

1.字符集的基本概念

什么是字符集?什么是字符编码?

按照“Character set encoding basics”文中的定义,字符集的编码模型分为以下4个层次

1)抽象字符清单Abstract character repertoire (ACR),无序,无编码;

2)已编码字符集Coded character set (CCS),有序,有编码;

3)字符编码规则Character encoding form (CEF),有序,有编码;

4)字符编码方案Character encoding scheme (CES),有序,有编码,有传输和储存规则(字节序);

这种分层方式,比较偏于学术化,不太容易理解。按我个人的理解,GB2312/GBK/GB18030/ASCII这些字符集编码规则,由于都基于8-bit字节,是属于前三层的,可以认为是三层合一。如果拿Unicode来说明的话,Unicode中定义的所有字符的集合,是第一层;我们通常说的Unicode编码,是指的第二层;现在最常见的UTF-8,是指的第三层。当UCS-4在以8-bit为基础的计算机中存储和传输时,就要涉及字节序的问题,就是第四层,分为big-endian和little-endian。

借用“程序员趣味读物:谈谈Unicode编码”中举的一个记事本例子(内容不同):

1)打开记事本(windows自带的那个),输入“我”;

2)另存为我_ansi.txt,注意,编码选择“ANSI”;

3)另存为我_unicode.txt,注意,编码选择“Unicode”;

4)另存为我_unicode_big.txt,注意,编码选择“Unicode Big Endian”;

5)另存为我_utf8.txt,注意,编码选择“UTF-8”;

保存完以后,看一下4个文件的大小,很有意思吧,分别是2/4/4/6个字节,再用二进制方式(推荐使用ultraedit)查看一下其中的内容:(高位字节在前)

1)ansi:CE D2

2)unicode:FF FE 11 62

3)unicode_big:FE FF 62 11

4)UTF-8:EF BB BF E6 88 91

第一个文件,ansi,比较好解释,2字节,就是GB2312/GBK/GB18030编码,即简体中文windows的默认内码

第二个文件,unicode,就是Unicode编

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值