问题描述
最近发现在不同的数据库中,有时中文占用2个字节,有时占用3个字节;
经过分析发现,对于varchar类型的字段:
如果数据库字符集使用utf-8,则3个字节表示一个中文;
如果数据库字符集使用gbk,则2个字节表示一个中文;
数据库字符集查看方式如下:
查看数据库字符集
/*
UTF8
是一种针对Unicode的可变长度字符编码,
对英文使用8位(1个字节)编码,
中文使用24位(3个字节)编码
GBK
是在国家标准GB2312基础上扩容后兼容GB2312的标准,中英文都是2个字节。
*/
-- 查看sqlserver字符集
SELECT SERVERPROPERTY('Collation') AS Collation, COLLATIONPROPERTY('Chinese_PRC_CI_AS', 'CodePage') AS CodePage;
-- 结果
-- Collation CodePage
-- Chinese_PRC_CI_AS 936
-- 查看db2字符集
SELECT NAME,value FROM SYSIBMADM.DBCFG WHERE NAME LIKE '%code%';
-- 结果
-- NAME VALUE
-- codepage 1208
-- codeset UTF-8
-- 查看oracle字符集
SELECT * FROM nls_database_parameters WHERE PARAMETER = 'NLS_CHARACTERSET';
-- 结果
-- PARAMETER VALUE
-- NLS_CHARACTERSET ZHS16GBK