【现象】
现场环境Oracle和达梦数据库字符集均为GBK,停掉应用,完成数据装载后,对比数据经常出现数据不一致的情况。同步过程中也常出现报错。
【排查过程】
起初以为时涉及到了某些生僻字或者乱码导致,但进一步排查发现,并非如此。
1、分别到Oracle和达梦数据库查询不一致的数据行,人工核对具体的值,并未看出异常。
2、通过使用dump函数查看带字符集名称的十六进制符号,对比达梦和Oracle的结果,发现确有不同。
3、使用veri对比时,加debug=1参数,查看agent日志中打印的列值,列值长度有所不同
4、排查dmhs配置文件,配置内容正常
5、检查环境变量,未配置NLS_LANG,怀疑是此变量的问题
【解决方法】
在dmhs启动脚本中配置NLS_LANG环境变量,该变量的值需要到Oracle服务器上,使用sqlplus查询Oracle客户端字符集“select userenv('language') from dual;”
该环境变量可配置为用户的环境变量,也可以配置到dmhs服务脚本中,配置该环境变量后,使用脚本重启dmhs服务,重新装载数据,对比验证数据一致,甚至在Oracle中乱码的数据也同样原模原样迁移到了达梦中,在达梦中乱码的形式也和Oracle完全一致,同步数据也正常。
注意:字符集SIMPLIFIED CHINESE_CHINA.ZHS16GBK和AMERICAN_AMERICA.ZHS16GBK实际存在差异,对同步有影响
【dump函数】
在达梦和Oracle中,使用Dump()函数可以返回一个varchar2值,这个值包含了数据类型代码、字节长度和表达式的内部表示形式。
语法:DUMP( expression [, return_format] [, start_position] [, length] )
xpression-->要分析的表达式。
return_format-->决定了返回值的格式,该参数可以是以下任何值:
8 :八进制符号
10 :十进制符号
16 :十六进制符号
17 :单个字符
1008 :带字符集名称的八进制符号
1010 :带字符集名称的十进制符号
1016 :带字符集名称的十六进制符号
1017 :带字符集名称的单个字符
start_position-->可选的,要返回的内部表示的起始位置。
length-->可选的,要返回的内部表示的长度。
该函数执行返回一个VARCHAR2值。如果省略了return_format,start_position和length参数,则DUMP函数将以十进制表示形式返回整个内部表示形式。