oracle汉字替换星号,更加实用的识别汉字(GBK)的自定义函数

最新推荐文章于 2023-03-17 10:29:34 发布

摆渡仁

最新推荐文章于 2023-03-17 10:29:34 发布

阅读量824

点赞数

文章标签： oracle汉字替换星号

本帖最后由 atgc 于 2014-1-5 19:19 编辑

几年前写过一个识别汉字的函数

http://www.itpub.net/thread-847680-1-1.html

但是只能识别GB2312的6763个汉字，现在做了扩展，可以识别GBK的21003个汉字

包括CJK(中日韩)，以及少量部首，如果不要这些部首，也可以修改函数过滤掉

新函数性能比旧函数好，把旧函数里的SELECT语句去掉了，并且做了些简单的优化，性能还有优化余地

缺点，调用比旧函数稍微麻烦一些，主要是那个DUMP函数只能在select语句中执行

参考资料

http://baike.baidu.com/link?url=rPKTqUcCknukF72Yduld1CAKd_lT1iGAsnE4F-W5RMWfaVyzGBiQ9B_gvv-aOvjT

http://zh.wikipedia.org/wiki/GBK

http://ff.163.com/newflyff/gbk-list/

GBK字符集共收录中日韩(CJK)汉字(简繁体)21003个，含少量部首,分布在GBK编码表的2区，3区和4区

其中

------------------------------------------------------------------------------------

GBK 2区(B0A1-F7FE), 收录GB2312汉字共6763个

------------------------------------------------------------------------------------

2区的高位是十进制的176-247, 低位是十进制的161-254

H 176 247

L 161 254

B0 0 1 2 3 4 5 6 7 8 9 A B C D E F

A 　啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘

B 鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱

C 袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋

D 靶把耙坝霸罢爸白柏百摆佰败拜稗斑

E 班搬扳般颁板版扮拌伴瓣半办绊邦帮

F 梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥

------------------------------------------------------------------------------------

GBK 3区(8140-A0FE), GB13000.1扩充汉字区, 收录CJK(中日韩)汉字6080个

------------------------------------------------------------------------------------

3区的高位是十进制的129-160, 低位是十进制的64-254，其中7F，也就是127没有汉字

H 129 160

L 64 254 (127不要)

81 0 1 2 3 4 5 6 7 8 9 A B C D E F

4 丂丄丅丆丏丒丗丟丠両丣並丩丮丯丱

5 丳丵丷丼乀乁乂乄乆乊乑乕乗乚乛乢

6 乣乤乥乧乨乪乫乬乭乮乯乲乴乵乶乷

7 乸乹乺乻乼乽乿亀亁亂亃亄亅亇亊

8 亐亖亗亙亜亝亞亣亪亯亰亱亴亶亷亸

9 亹亼亽亾仈仌仏仐仒仚仛仜仠仢仦仧

A 仩仭仮仯仱仴仸仹仺仼仾伀伂伃伄伅

B 伆伇伈伋伌伒伓伔伕伖伜伝伡伣伨伩

C 伬伭伮伱伳伵伷伹伻伾伿佀佁佂佄佅

D 佇佈佉佊佋佌佒佔佖佡佢佦佨佪佫佭

E 佮佱佲併佷佸佹佺佽侀侁侂侅來侇侊

F 侌侎侐侒侓侕侖侘侙侚侜侞侟価侢

------------------------------------------------------------------------------------

GBK 4区(AA40-FEA0), GB13000.1扩充汉字区, 收录CJK汉字和增补的汉字8160个(含少量部首)

------------------------------------------------------------------------------------

4区的高位是十进制的170-254, 低位是十进制的64-160，其中7F，也就是127和3区一样没有汉字

H 170 254

L 64 160 (127不要)

AA 0 1 2 3 4 5 6 7 8 9 A B C D E F

4 狜狝狟狢狣狤狥狦狧狪狫狵狶狹狽狾

5 狿猀猂猄猅猆猇猈猉猋猌猍猏猐猑猒

6 猔猘猙猚猟猠猣猤猦猧猨猭猯猰猲猳

7 猵猶猺猻猼猽獀獁獂獃獄獅獆獇獈

8 獉獊獋獌獎獏獑獓獔獕獖獘獙獚獛獜

9 獝獞獟獡獢獣獤獥獦獧獨獩獪獫獮獰

A 獱

如下函数字符集必须ZHS16GBK

create or replace function func_chinese

(

p_str in varchar2, -- 输入的字符串

p_code in varchar2, -- dump(字符串)

p_chinese in pls_integer -- 1, 提取汉字, 非1, 提取非汉字

) return varchar2

v_code varchar2(32767) := substr(p_code,instr(p_code,':')+2);

v_chinese varchar2(32767) := '';

v_non_chinese varchar2(32767) := '';

v_comma pls_integer;

v_code_h pls_integer;

v_code_l pls_integer;

begin

if p_str is not null then

for i in 1..length(p_str) loop

if lengthb(substr(p_str,i,1))=2 then

v_comma := instr(v_code,',');

v_code_h := to_number(substr(v_code,1,v_comma-1));

v_code_l := to_number(substr(v_code,v_comma+1,abs(instr(v_code,',',1,2)-v_comma-1)));

if (v_code_h>=176 and v_code_h<=247 and v_code_l>=161 and v_code_l<=254) or

(v_code_h>=129 and v_code_h<=160 and v_code_l>=64 and v_code_l<=254 and nvl(v_code_l,127)!=127) or

(v_code_h>=170 and v_code_h<=254 and v_code_l>=64 and v_code_l<=160 and nvl(v_code_l,127)!=127) then

v_chinese := v_chinese||substr(p_str,i,1);

else

v_non_chinese := v_non_chinese||substr(p_str,i,1);

end if;

v_code := ltrim(v_code,'1234567890');

v_code := ltrim(v_code,',');

else

v_non_chinese := v_non_chinese||substr(p_str,i,1);

end if;

v_code := ltrim(v_code,'1234567890');

v_code := ltrim(v_code,',');

end loop;

if p_chinese = 1 then

return v_chinese;

else

return v_non_chinese;

end if;

else

return '';

end if;

end;

SQL> select * from t;

NAME

----------------------

新年快乐X

狿X

狿

199

春天会来的

-----------------------

实验1: 提取汉字

-----------------------

select name,func_chinese(name,dump(name),1) result from t;

NAME RESULT

------------------------------ -----------

新年快乐X 新年快乐

狿X 狿

狿狿

199

春天会来的春天会来的

-----------------------

实验2: 提取非汉字

-----------------------

select name,func_chinese(name,dump(name),0) result from t;

NAME RESULT

------------------------------ -------

新年快乐X X

狿X X

狿

199 199

春天会来的

-----------------------

实验3: 判断是否都是汉字

-----------------------

select name from t where func_chinese(name,dump(name),0) is null and name is not null;

NAME

-----------

狿

春天会来的

如上函数执行100万次，判断的字符串平均5个汉字，耗时22秒，其中dump耗时6,.5秒，实际判断的字节是10M

同时测试了在字符串很长的时候的性能

测试了字符串都是1000字节，判断1000行需要22秒，实际判断的字节也是10M

总体看，如果用来判断姓名，如果记录很多，性能还可以接受，如果用来判断很长的字符串，且记录很多的时候，性能很差

SQL> select count(*) from t;

COUNT(*)

----------

1048576

我加了paralle只花了4秒

select /*+ parallel(t 8) */ count(*) from t where func_chinese(name,dump(name),0) is null and name is not null;

COUNT(*)

----------

786432

Elapsed: 00:00:03.94

刚才尝试将v_code := ltrim(v_code,'1234567890'); 去掉，换了一种substr的方法

在字符串很短的时候，性能提升30％，但是字符串很长的时候，性能很糟糕

摆渡仁

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
oracle汉字替换星号,更加实用的识别汉字(GBK)的自定义函数

本帖最后由 atgc 于 2014-1-5 19:19 编辑几年前写过一个识别汉字的函数http://www.itpub.net/thread-847680-1-1.html但是只能识别GB2312的6763个汉字，现在做了扩展，可以识别GBK的21003个汉字包括CJK(中日韩)，以及少量部首，如果不要这些部首，也可以修改函数过滤掉新函数性能比旧函数好，把旧函数里的SELECT语句去掉了，并且做...
复制链接

扫一扫