对于初学者我们可以理解字符集就是一种字符编码方式,试想人可以直接语言进行交流,使用文字进行记录,而计算机却不认得我们人类创立的文字,计算机只认得0和1这样的二进制代码。当我们要通过计算机记录文字信息的时候,就需要有一种方式能够让计算机能够识得我们文字的输入,这就产生了编码。编码就是把我们日常使用的文字和计算机中的0和1对应起来,通过计算机的0和1的不同组合来对应到不同的文字。由于0和1的组合方式有很多加之有不同的人编码,所以就会产生很多不同的编码方式(你可以编码,别人也可以以进行编码嘛)。由权威机构进行编码而形成的编码集合称之为字符集,例如,中文的字符集GB2312就是由中国政府自己编出来的,台湾对此当然不服,所以他们也进行了汉字的编码,那就是大名鼎鼎的大五码(BIG5)。
字符集的根本就是编码的方法,大家各自的编码方法都不相同,这对电脑的普及和互联造成了非常大的困扰。这时美国老大站出来推出了一种双字节编码的标准叫做:ANSI!中国的GB2312就符合ANSI的标准。中国的ANSI是GB2312,日本的ANSI则是JIS;中文的ANSI编码只认中国字,日本的一样只认日本字。所以这种编码标准虽然统一了编码方法,但没有解决不同字符集的兼容问题。 这时就出现了Unicode编码,一个各种语言通吃的编码。当然这种编码如此强大也是付出了代价的,那就是长度!
Unicode编码也称为统一码、万国码、单一码,是一种在计算机上使用的字符编码。它使用16位的编码空间,也就是每个字符占用2个字节,这样理论上一共最多可以表示65,536(2的16次方)个字符,基本满足各种语言的使用。实际上目前版本的Unicode尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展使用,主要用于满足跨语言、跨平台进行文本转换、处理的要求,比如某软件平台的转换,从Windows到Liunx上。
演示一个插入插叙产生乱码的过程:
我们知道产生乱码的原因主要是需要显示文字的编码与客户端的编码不对应造成的,导致需要显示的字符在当前客户端中找不到对应的编码,只好以乱码显示。在Oracle中,当输入文字到Oracle,Oracle会认为当前文字的编码方式是按照客户端的NLS_LANG参数指定的编码方式编码的,那么Oracle会查询当前服务中的字符集,如果两方不一致时就会自动转换。当客户端NLS_LANG指定的字符集与操作系统不一致时,那么这种转换就会发生错误,具体是 操作系统-->客户端NLS_LANG-->服务器的字符集。
演示相同字符在不同字符集下对应的编码不同的例子
另开一个会话,设置客户端字符集为AL32UTF8,向表中插入相同字符:
我们分别在两个不同的会话中查询数据:
查看一下相同字符在操作系统中的字符编码:
将客户端设置为不同的字符集,演示导入/导出可能产生的乱码问题
~~~~~延伸:
GB2312是中国国家标准总局发布,于1981年5月实施。目前通行于中国大陆和新加坡。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。 现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。 现在很多软件编程都还是使用GB2312为主。因为兼容性好!不容易出现乱码。系统语言包里基本都是用GB2312的!
BIG5又叫大五码:是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。 是在1984年由台湾财团法人资讯工业策进会和五家有意愿共同推动电脑中文化的资讯公司所共同创立,故称大五码。五家公司为:宏碁、神通、佳佳、零壹及大众。
Big5也是繁体的意思,GB是简体的意思。