我的环境是RH linux 4,数据库oracle 10.2,字符集是AL32UTF8。现象是这样的:用select查看原数据,中文显示乱码,但java应用程序显示正常。从linux上用sqlplus插入一条中文,再用select 查询,新插入的这条中文显示正常,但java应用程序查询不出来。数据库字符集用的utf8,看了一下nls_lang的设置是NLS_LANG=american_america.AL32UTF8; 于是改成了NLS_LANG=american_america.UTF8(编辑并运行.bash_profile),重新插入数据,用select查看,中文显示乱码,但java应用程序显示正常。再修改NLS_LANG=american_america.ZHS16GBK,用select查询,中文显示正常。
今天又遇到了从sql plus insert 中文的问题,主要还是nls_lang的设置,总结一下。
首先要明确什么是字符集?字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包括关系,如us7ascii就是zhs16gbk的子集, 从us7ascii到zhs16gbk不会有数据解释上的问题,不会有数据丢失,Oracle对这种问题也要求从子集到超集的导出受支持,反之不行。在所有的字符集中utf8应该是最大,因为它基于unicode,双字节保存字符(也因此在存储空间上占用更多)。

其次,一旦数据库创建后,数据库的字符集是不能改变的。因此,在设计和安装之初考虑使用哪一种字符集是十分重要的。数据库字符集应该是操作系统本地字符集的一个超集。存取数据库的客户使用的字符集将决定选择哪一个超集,即数据库字符集应该是所有客户字符集的超集。
现在,介绍一些与字符集有关的NLS_LANG参数,

NLS_LANG格式:

NLS_LANG = language_territory.charset

有三个组成部分(语言、地域和字符集),每个成分控制了NLS子集的特性。其中:language 指定服务器消息的语言。

territory 指定服务器的日期和数字格式。

charset 指定字符集

例如:

AMERICAN_AMERICA.US7SCII

AMERICAN _ AMERICA. ZHS16GBK



还有一些子集可以更明确定义NLS_LANG参数:

DICT.BASE 数据字典基本 表版本

DBTIMEZONE 数据库时区

NLS_LANGUAGE 语言

NLS_TERRITORY 地域

NLS_CURRENCY 本地货币字符

NLS_ISO_CURRENCY ISO货币字符

NLS_NUMERIC_CHARACTERS 小数字符和组 分隔开

NLS_CHARACTERSET 字符集

NLS_CALENDAR 日历系统

NLS_DATE_FORMAT 缺省的日期格式

NLS_DATE_LANGUAGE 缺省的日期语言

NLS_SORT 字符排序序列

NLS_TIME_FORMAT 时间格式

NLS_TIMESTAMP_FORMAT 时间戳格式

……
查看可选的数据库字符集: col nls_charset_id for 99999
col nls_charset_name for a35
col hex_id for a5
select nls_charset_id(value) nls_charset_id,value nls_charset_name,to_char(nls_charset_id (value),'xxxx') hex_id
from v$nls_valid_values
where parameter = 'CHARACTERSET';
查看当前数据库字符集配置: col parameter for a35
col value for a35
select * from v$nls_parameters;

或者:
select * from sys.props