Oracle与汉字问题与字符集

      Oracle字符集引起的几个问题,常见的就是汉字占多少个字节,其次就是字符集导致数据库启动失败以及索引失效等问题

汉字占多少个字节?

select length('ABCDE中文字符串FG'),lengthb('ABCDE中文字符串FG') from dual;

就可以知道,一个汉字占了几个字节,也可以查看数据库的字符集

select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';

当NLS_CHARACTERSET=AL32UTF8时(UTF-8是变长编码,每个Unicode代码点按照不同范围,可以有1-3字节的不同长度
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字代表三个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字代表一个字节
当NLS_CHARACTERSET=US7ASCII时(字符集为单字节)
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字代表两个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字代表两个字节

Oracle与汉字问题相关的函数

注意:计算长度的几个方法区别如下:

LENGTH(string1) 返回以字符为单位的长度.
LENGTHB(string1) 返回以字节为单位的长度.
LENGTHC(string1) 返回以Unicode完全字符为单位的长度.
LENGTH2(string1) 返回以UCS2代码点为单位的长度.
LENGTH4(string1) 返回以UCS4代码点为单位的长度.

substr,substrb均为字符串截取函数,都带有三个参数,第一个参数为所要截取的字符串,第二个参数为strart(索引均从1开始),第三个参数为length。
substr是按照字来算的,而substrb()是按照字节来算

关于substr,substrb的例子举例:

SQL> select substr('今天是个好日子',3,5) from dual;
----------
是个好日子
SQL> select substrb('今天是个好日子',3,5) from dual;
-----
天是
结论是substr是按照字来算的,而substrb()是按照字节来算的。看下面的例子:
SQL> select substr('abcdef',3,4) from dual;
----
cdef
SQL> select substrb('abcdef',3,4) from dual;
----
cdef
分析:对于字母来说,substr与substrb作用时一样的,但对于汉字来说,substr是按字来取值,而substrb是按字节来取值,当所取长度为奇数时,则自动舍弃最后一位字节。
类似的还有,
length与lengthb 长度计算函数 
select length('你好') from dual         ----output:2
select lengthb('你好') from dual       ----output :4

Instr与Instrb 字符串查找函数 instr(原字符串,查的字符串,起始位置,第几个匹配) 返回字符串位置,找不到返回0 .
select instr('日日花前长病酒','花前',1,1) from dual     ----output:3
select instrb('日日花前长病酒','花前',1,1) from dual     ----output:7

 Oracle字符集

安装数据库的时候可以设置字符集,不同版本可能默认的字符集是不一样的(以Oracle 9i为例子)

首先查看字符集:(注意:修改数据库字符集时必须谨慎,修改之前一定要为数据库备份。由于不能回退这项操作,因此可能会造成数据丢失或者损坏)

SQL> select name,value$ from props$ where name like '%NLS%';

NAME                           VALUE$
------------------------------ ------------------------------
NLS_LANGUAGE                   AMERICAN
NLS_TERRITORY                  AMERICA
NLS_CURRENCY                   $
NLS_ISO_CURRENCY               AMERICA
NLS_NUMERIC_CHARACTERS         .,
NLS_CHARACTERSET               US7ASCII
NLS_CALENDAR                   GREGORIAN
NLS_DATE_FORMAT                DD-MON-RR
NLS_DATE_LANGUAGE              AMERICAN
……………….
NLS_NCHAR_CHARACTERSET         AL16UTF16
NLS_RDBMS_VERSION              9.2.0.4.0

20 rows selected.
SQL> select name,dump(name) from eygle.test;

NAME   DUMP(NAME)
------------------------------------------------------
测试     Typ=1 Len=4: 178,226,202,212
Test      Typ=1 Len=4: 116,101,115,116


2 rows selected.

转换字符集,你只能在新字符集是旧字符集严格超集的情况下使用这种方式转换。所谓超集是指:当前字符集中的每一个字符在新字符集中都可以表示,并使用同样的代码点比如很多字符集都是US7ASCII的严格超集.

如果不是超集,将获得以下错误:

SQL> ALTER DATABASE CHARACTER SET  ZHS16CGB231280;
ALTER DATABASE CHARACTER SET  ZHS16CGB231280*ERROR at line 1:ORA-12712: new character set must be a superset of old character set

转换字符集,数据库应该在RESTRICTED模式下进行:

c:\>sqlplus "/ as sysdba" SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 10:52:30 2003 Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved. Connected to: Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options JServer Release 9.2.0.4.0 - Production SQL> shutdown immediate Database closed. Database dismounted. ORACLE instance shut down. SQL> STARTUP MOUNT; ORACLE instance started. Total System Global Area 76619308 bytes Fixed Size 454188 bytes Variable Size 58720256 bytes Database Buffers 16777216 bytes Redo Buffers 667648 bytes Database mounted. SQL> ALTER SESSION SET SQL_TRACE=TRUE; Session altered. SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION; System altered. SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0; System altered. SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0; System altered. SQL> ALTER DATABASE OPEN; Database altered. SQL> set linesize 120 SQL> ALTER DATABASE CHARACTER SET ZHS16GBK; ALTER DATABASE CHARACTER SET ZHS16GBK * ERROR at line 1: ORA-12721: operation cannot execute when other sessions are active SQL> ALTER DATABASE CHARACTER SET ZHS16GBK; ALTER DATABASE CHARACTER SET ZHS16GBK * ERROR at line 1: ORA-12716: Cannot ALTER DATABASE CHARACTER SET when CLOB data exists 在Oracle9i中,如果数据库存在CLOB类型字段,那么就不允许对字符集进行转换

这时候,我们可以去查看alert<sid>.log日志文件,看CLOB字段存在于哪些表上:

ALTER DATABASE CHARACTER SET ZHS16GBK SYS.METASTYLESHEET (STYLESHEET) - CLOB populatedORA-12716 signalled during: ALTER DATABASE CHARACTER SET ZHS16GBK... 

对于不同情况,Oracle提供不同的解决方案,如果是用户数据表,一般我们可以把包含CLOB字段的表导出,然后drop掉相关对象,
转换后再导入数据库;对于系统表,可以按照以下方式处理:

SQL> truncate table Metastylesheet;Table truncated. 
SQL> ALTER SESSION SET SQL_TRACE=TRUE;
Session altered.
SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
Database altered.
SQL> ALTER SESSION SET SQL_TRACE=FALSE;
Session altered.

在9.2.0中,转换完成以后,可以通过运行catmet.sql脚本来重建Metastylesheet表:

SQL> @?/rdbms/admin/catmet.sql

通过Metastylesheet表来测试不同字符集的影响。

提示:
通过设置sql_trace,我们可以跟踪很多数据库的后台操作,这个工具是DBA常用的“利器”之一。
我们简单看一下数据库更改字符集时的后台处理,我提取了主要的更新部分。
通过以下跟踪过程,我们看到数据库在更改字符集的时候,主要更新了12张数据字典表,修改了数据库的原数据,这也证实了我们以前的说法:
这个更改字符集的操作在本质上并不转换任何数据库字符,只是简单的更新数据库中所有跟字符集相关的信息。

update col$ set charsetid = :1 
where
 charsetform = :2


update argument$ set charsetid = :1 
where
 charsetform = :2


update collection$ set charsetid = :1 
where
 charsetform = :2


update attribute$ set charsetid = :1 
where
 charsetform = :2


update parameter$ set charsetid = :1 
where
 charsetform = :2


update result$ set charsetid = :1 
where
 charsetform = :2


update partcol$ set spare1 = :1 
where
 charsetform = :2


update subpartcol$ set spare1 = :1 
where
 charsetform = :2


update props$ set value$ = :1 
where
 name = :2


update "SYS"."KOTAD$" set SYS_NC_ROWINFO$ = :1 
where
 SYS_NC_OID$ = :2

update seq$ set increment$=:2,minvalue=:3,maxvalue=:4,cycle#=:5,order$=:6,
  cache=:7,highwater=:8,audit$=:9,flags=:10 
where
 obj#=:1

update kopm$ set metadata = :1, length  = :2 
where
 name='DB_FDO'

注意:通过前面 ” ALTER DATABASE CHARACTER SET” 方式更改字符集时,Oracle至少需要更改12张数据字典表,而这种直接更新props$表的方式只完成了其中十二分之一的工作,潜在的完整性隐患是可想而知的。而且通过更新props$表的方式修改字符集,在Oracle7之后就不应该被使用.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值