varchar[(n)] 和nvarchar(n) 及使用unicode的意义

最新推荐文章于 2022-06-21 16:06:13 发布

kepeizong

最新推荐文章于 2022-06-21 16:06:13 发布

阅读量1.7k

点赞数

分类专栏：数据库基础知识文章标签： character microsoft api byte apple ibm

本文链接：https://blog.csdn.net/kepeizong/article/details/747641

版权

数据库基础知识专栏收录该内容

24 篇文章 0 订阅

订阅专栏

varchar[(n)]

长度为 n 个字节的可变长度且非 Unicode 的字符数据。n 必须是一个介于 1 和 8,000 之间的数值。存储大小为输入数据的字节的实际长度，而不是 n 个字节。所输入的数据字符长度可以为零。varchar 在 SQL-92 中的同义词为 char varying 或 character varying。

nvarchar(n)

包含 n 个字符的可变长度 Unicode 字符数据。n 的值必须介于 1 与 4,000 之间。字节的存储大小是所输入字符个数的两倍。所输入的数据字符长度可以为零。nvarchar 在 SQL-92 中的同义词为 national char varying 和 national character varying。

对于英文来说，ascii码0-127就足以代码所有字符，对于中文而言，则必须使用两个字节(byte)来代表一个字符，具第一个字节必须大于127(所以我们有许程序判断中文都是以ascii码大于127作为条件)
以上用两个字节来表示一个中文的方式，在习惯上称为双字节(即DBCS:Double-ByteCharacterSet)，而相对之下，英文的字符码就称为单字节SBCS(Single-ByteCharacterSet)。
虽然双字节(DBCS)足以解决中英文字符混合使用情况，但对于不同字符系统而言，必须经过字符码转换，非常麻烦。例如：中英文混合情况，日文，韩文等等。
为解决这个问题，Apple,Xerox,Microsoft,IBM,Novell,Borland...很多公司联合起来制订了一套可以适用于全世界所有国家的字符码，就称为Unicode
Unicode的特点是：
不管哪一国的字符码均以两个Byte表示，例如"A"在Unicode则是16进制41和00的组合，即4100，高位41(转换为Ascii码即是65=A)，
WindowsNT/2000以Unicode来表示字符集，例如你可以看到MSSQLServer中产生的SQL文件可以选择是以Unicode来保存还是以普通格式来保存，如果你以Unicode保存，则在95/98平台许多软件均无法正确读出其格式。
同时你还可以注意到95/98中API定义，许多名称结尾是有一个A的，例如
WriteProfileStringA
而在NT/2000操作系统中，提供了两套API，另外一个命令是WriteProfileStringW，以W结尾的API只适用于NT/2000。（在NT中使用以W结尾的API函数效率比A结尾的要快，因为省去了Unicode和DBCS/SBCS的转换过程）

这样我们经常要用到的判断字符串长度的函数，在NT和95/98下执行结果不同，如下：(下面代码适合于VB,ASP)

95/98中：
len("abc中国")返回7(因为每个中文作为两个Ascii码来看)

nt/2000中：
len("abc中国")返回5(因为每个字符都作为一个Unicode来看)

明天将介绍如何在VB/NT环境下使len("abc中国")返回长度等于7

(PB不存在以上情况，除非你在NT下使用PB的Unicode版本，通常我们大家使用的均是PB的Windows32位版本)