排序规则基本概念和误区

最新推荐文章于 2021-01-27 14:35:09 发布

OwenZeng_DBA

最新推荐文章于 2021-01-27 14:35:09 发布

阅读量2.4k

点赞数 1

分类专栏： SQL SERVER 人人都是DBA

本文链接：https://blog.csdn.net/z10843087/article/details/78091328

版权

SQL SERVER 同时被 2 个专栏收录

49 篇文章 5 订阅

订阅专栏

人人都是DBA

18 篇文章 12 订阅

订阅专栏

前言

昨天在论坛里面遇到一个比较特殊的场景。他的公司做的是海外的项目，中英再加一个当地语言，要兼容三种文字啊.
那有没有什么字符集或排序规则，能兼容所有文字的？对于海外项目很痛苦啊 .Oracle 有AL32UTF8 ，MySQL 有UTF8 ，那SQL Server 有吗？

基本概念

 
 ASCII编码 

 
 在计算机发明后不久，计算机只在美国用。他们创造出了ASCII编码，来表示：空格、标点符号、数字、大小写字母，控制符等。可以完整的表达所有的英文。但是也只支持英文。 

 
 GBK编码 

 
 后来随着计算机的流行，中国人民通过对 ASCII 编码的中文扩充改造，产生了 GB2312 编码，可以表示6000多个常用汉字。汉字实在是太多了，包括繁体和各种字符，于是产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030 编码。 

 
 每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。 

 
 终于，有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 UNICODE ，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 UNICODE 编码就可以被其他电脑正常解释。 

 
 UTF-8 AND UTF-16 

 
 UNICODE 在网络传输中，出现了两个标准 UTF-8 和 UTF-16，分别每次传输 8个位（2个字节）和 16个位（4个字节）。于是就会有人产生疑问，UTF-8 既然能保存那么多文字、符号，为什么国内还有这么多使用 GBK 等编码的人？因为 UTF-8 等编码体积比较大，占电脑空间比较多，如果面向的使用人群绝大部分都是中国人，用 GBK 等编码也可以。 

 
 总的来说： 

Unicode 是「字符集」
UTF-8 是「编码规则」

 
 其中： 

字符集：为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）
编码规则：将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）

排序规则

比如我们常用的：Chinese_PRC_CI_AS ，前面部分是Chinese_PRC 这个部分表示支持的中国大陆的字符集。但是这里有个特别需要注意的事项，划重点，在很多博客上面会有这样的描述：

大陆简体字UNICODE的排序规则

这里有很大的歧义。并不是说这个排序规则对所有字符都是有的Unicode。这样说并不准确。

排序规则的后半部份即后缀含义：
　　_BIN 二进制排序
　　_CI(CS) 是否区分大小写，CI不区分，CS区分(case-insensitive/case-sensitive)
　　_AI(AS) 是否区分重音，AI不区分，AS区分(accent-insensitive/accent-sensitive)
　　_KI(KS) 是否区分假名类型,KI不区分，KS区分(kanatype-insensitive/kanatype-sensitive)
　　_WI(WS) 是否区分宽度 WI不区分，WS区分(width-insensitive/width-sensitive)　
区分大小写:如果想让比较将大写字母和小写字母视为不等，请选择该选项。
区分重音:如果想让比较将重音和非重音字母视为不等，请选择该选项。如果选择该选项，
比较还将重音不同的字母视为不等。
区分假名:如果想让比较将片假名和平假名日语音节视为不等，请选择该选项。
区分宽度:如果想让比较将半角字符和全角字符视为不等，请选择该选项