
字符集
zhangxinrun_业余erlang
这个作者很懒,什么都没留下…
展开
-
Unicode详解
<br />最近一直在忙点私活,又好久没写blog了,再不写点的话二月份就又要以单篇文章结束了。前一阵子一直在研究Unicode,索性把研究结果介绍一下吧。<br />可能大家都听说过 Unicode、UCS-2、UTF-8 等等词汇,但它们具体是什么意思,是什么原理,之间有什么关系,恐怕就很少有人明白了。下面就分别介绍一下它们。<br /> 基本知识字节和字符的区别Big Endian和Little EndianUCS-2和UCS-4UTF-16和UTF-32UTF-16UTF-32UTF-8基本知识<b原创 2010-08-23 15:11:00 · 774 阅读 · 0 评论 -
ANSI,ASCII,Unicode的区别与联系
<br />快下班时,爱问问题的小朋友Nico又问了一个问题: <br />"sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思。" <br />并不是所有简单的问题都很容易回答,就像这个问题一样。于是我答应专门写一篇BLOG来从头讲讲编码的故事。那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起。嗯,也许这样开始比较好…… <br /><br /><br />很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的转载 2010-08-23 15:09:00 · 734 阅读 · 0 评论 -
汉字编码及相关问题
<br />在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。<br /> 在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。<br /> 后来,转载 2010-08-23 16:25:00 · 758 阅读 · 0 评论 -
ASCII(ANSI), GB-2312, UNICODE, UTF-8,UTF-16
<br />几年前,我在初次接触Unicode时学习过一段时间的编码,当时解决了问题就没有继续下去,我记得当时遗留下来的一个问题就是UTF-8到底是怎样一种编码,和Unicode有什么区别?为什么有了Unicode还要有UTF-8?<br /> 最近又遇到了UTF-8的问题,因此我决定就此机会好好学习一下Unicode相关的知识。<br /> 从前在编程的时候我都不用Unicode字符集的,好像VC6对工程的默认设置是使用多字节字符集。记得那个时候如果要在VC6里使用Unicode字符集,好像C转载 2010-08-23 16:27:00 · 1330 阅读 · 0 评论 -
ef bb bf--utf-8 bom
<br />Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明:<br />在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE转载 2010-08-23 15:10:00 · 6903 阅读 · 0 评论