平时工作中,偶尔会有关于字符与字节的困惑,今天闲暇之余,特意整理一下。
术语:
位(bit):是计算机 内部数据 储存的最小单位,11001100是一个八位二进制数。
字节(byte):是计算机中 数据处理 的基本单位,习惯上用大写 B 来表示,1B(byte,字节)= 8bit(位)
字符:是指计算机中使用的字母、数字、字和符号
说明:
在oracle中,NVARCHAR2、NCHAR使用的是国家字符集(NLS_NCHAR_CHARACTERSET),同时国家字符集必须
为AL16UTF16、UTF8两个中的一个;其他的字符类型使用的是 标准字符集(NLS_CHARACTERSET),例如该库的字符集查询 如下:
测试
(1) 首先在 数据库字符集为 ZHS16GBK,国家字符集为 UTF8进行测试:
建一张测试表并插入数据 :
create table t_var(va nvarchar2(32),vb varchar2(32));
insert into t_var values('你好','你好');
insert into t_var values('hello','hello');
此时我们查询:
测试结果 :
a. 当字符类型使用标准 字符集为 ZHS16GBK时, 一个英文字符占一个字节,一个中文字符占两个字节;
b. 当 字符类型使用 国家字符集为 UTF8时, 一个英文字符占一个字节,一个中文字符占三个字节;
(2) 然后我们在另一个库标准字符集为 ZHS16GBK,国家字符集为AL16UTF16时,再进行以上相同的测试:
测试结果:
a. 当字符类型使用标准 字符集为 ZHS16GBK时, 一个英文字符占一个字节,一个中文字符占两个字节;
b. 当 字符类型使用 国家字符集为 AL16UTF16 时,一个 英文字符占两个字节,一个中文字符占两个字节;
以上是一个简单的测试过程,说明当我们当我们选择不同的字符类型时,一个字符所占的字节是不一样的,这可能会对我们使用一些字符处理的函数时造成影响。
此外,我们在日常工作中,也许看到过以下的字符长度定义的写法:
varchar2(32)
varchar2(32 char)
varchar2(32 byte)
这三种定义方法都是正确的,只不过它表示的意思是不一样的:
varchar2(32 char) :指定了字符串最大长度是32位,不管是中文还是英文,最大存储长度是32位;
varchar2(32 byte) :指定了字符串所占的最长字节数为32,例如允许存储中文最多16个,英文32个;
varchar2(32) :未明确指定字符串最大长度的度量是以byte为准,还是以char为准,此时起决定作用的是
参数NLS_LENGTH_SEMANTICS;
在测试库中查询该参数如下:
可以看到数据库默认的字符串长度的度量是BYTE。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69902769/viewspace-2645938/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/69902769/viewspace-2645938/