Oracle字符集引发文字化问题(一)

最新推荐文章于 2021-07-20 14:32:09 发布

inf_yinzhimin

最新推荐文章于 2021-07-20 14:32:09 发布

阅读量1.9k

点赞数 1

分类专栏： Oracle 文字编码

本文链接：https://blog.csdn.net/inf_yinzhimin/article/details/53461828

版权

Oracle 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

文字编码

1 篇文章 0 订阅

订阅专栏

之前就遇到过几次由于Oracle字符集引发文字化问题，稍微整理一下，作为备忘。若有不对的地方，请指出。

所谓的文字化问题，是指在根据文字编码将文字转换为相应二进制编码过程中，发生的转换失败（转换后的二经制在对应的字符编码中并不存在）问题。

由于字符集历史以及很多软件内部处理的关系，很遗憾文字化导致的问题是时有发生的。

文字化问题发生时，由于在整个文字化转换过程中有多个软件参与的原因，要定位问题发生的位置并予以处理，往往是需要花一定时间的。

本文简单说明一下对Oracle内部文字化的一些理解。

Oralce的文字编码

究竟什么是文字编码？

计算机内部，所有的数据都是以0、1的二进制序列表示（这里指的并不是文字对应的计算机内码，转换为内码的过程本文不做过多说明）。

文字也是一样，在计算机内部以某种形式的二进制序列被表示。那么某个文字究竟以哪种二进制序列被表示，这个表示规则就称作[文字编码]。

由于实际工作过程中接触的多是日文系统，所以下面以常见的日文编码为例进行说明。

对于日文来说，目前被广泛使用的编码也有好几种。根据文字编码的不同，同一文字的二进制序列也不同。

文字编码	文字[あ]对应的二进制序列
SHIFT_JIS	0x82A0
EUC_JP	0xA4A2
UFT-8	0xE38182

表1-不同文字编码下对应的文字[あ]的二进制序列（16进制表示）

日文存在的数种字符编码，根据操作系统的不同，主要适用的字符编码也有所不同。比如，Windows系列主要以SHIFT_JIS为主，而Unix系列的操作系统则以EUC_JP或UNICODE为主。正因为如此，当文字在不同的操作系统之间传递的时候，就需要进行文字编码的变换。这里的变换是指，从某种文字编码的二进制序列变换为另一种文字编码中对应的二进制序列的过程。

例如，把文字[あ]从SHIFT_JIS编码转换为EUC_JP编码的时候，其实也就是把二进制序列0x82A0转换为0xA4A2的过程。这种变换，是依照事先规定好的变换表来进行的。变换表中记载了，变换前二进制编码和变换后二进制编码的对应关系。

※也有某些例外，不需要变换表，而是根据算数运算进行变化的。

但是，实际上也存在[在某种文字编码中存在，在另一种文字编码中不存在]的文字。

例如，Windows环境下使用的SHIFT_JIS编码中的[（1）]文字，在EUC_JP编码中一般是不存在的。

Oracle作为一款软件，搭载在各种不同的操作系统之上，根据系统文字编码的不同也需要发生也需要发生文字编码的转换。这时候就可能发生文字化的问题。

对于Oracle来说，相关的字符集可以问题两部分。