aix mysql5.1 字符集_数据迁移过程中的字符集编码问题

数据迁移过程中,文件一落地就涉及到文件字符集编码问题。为保证正确的数据入库,几处与字符集相关的设置需要注意。

1.首先是文件的字符集确认和转换。

案例:有一个文件需要导入数据库,数据库编码为utf-8。文件中的字段分割符为“|”,在导入过程中指定1386(GBK)的话会报错,原因是“|”超出了字符定义范围;但是如果指定1208(utf-8)的话,虽然文件被顺利导入数据库,但是当查询的时候遇到中文会报错(有一点很奇怪需要注意,这里说的报错是使用查询工具,如TOAD,AQUA等,应用程序查询也会出错,不过如果在服务器上使用CLP查询会正确显示中文)。没办法确定文件的编码方式,不过怀疑应该是1386(GBK),也就是说我们使用错误的编码存入了数据库而导致错误。使用iconv工具将该文件从GBK转为utf-8,重新导入,问题解决。结果可以断定,该文件原编码肯定是GBK。由于我们导入的时候指定编码为1208,则数据库直接把1386的编码作为1208写入了数据库,没有经过编码转换。

在Linux中查看文件编码可以使用Vim编辑器,打开文件后输入“:set fileencoding”就会显示当前文件的编码格式,例如utf-8。由于在AIX中目前还没有安装Vim,所以还没有找到有效查看文件编码的方法。

在AIX中转换文件编码可以使用iconv命令,曾完成从GBK到UTF-8的转换。

2.LOAD/IMPORT编码设置

首先需要使用db2set db2codepage来设置当前系统代码页,设置完需要terminate,使之生效。缺省情况下(即不指定codepage),LOAD认为输入文件使用数据库代码页编码的,直接将文件转化为数据库codepage编码。如果输入文件不是以数据库codepage编码的,可以通过codepage修饰符来指定文件编码从而正确导入文件。而缺省情况下IMPORT使用程序人为输入文件中的数据是用当前系统的代码页(即db2codepage)编码的,当将数据文件导入数据库时,DB2会自动将数据文件从当前系统代码页转换成数据库代码页。如果输入文件不是当前系统的代码页编码的,也可以通过codepage修饰符来指定文件编码从而导入正确文件。

可以参考:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-1007wucx/index.html

3.EXPORT编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值