ORACLE TEXT全文检索

ORACLE 版本10.0.2
查看数据库相关的信息select * from nls_database_parameters
1、简单应用
1.1如果要使用全文检索,当前ORACLE用户必须具有CTXAPP角色

--创建一个用户
--create user textsearch identified by textsearch;
/**
赋予用户三个角色,其中有一个为CTXAPP角色,
以便该用户可以使用与全文检索相关的PROCEDURE
*/
grant connect,resource,ctxapp to textsearch;
/


使用创建的用户登录
SQL> conn textsearch
输入口令: **********
已连接。

1.2创建要进行全文检索的数据表,准备数据

--drop table textdemo;
create table textdemo(
id number not null primary key,
book_author varchar2(20),--作者
publish_time date,--发布日期
title varchar2(400),--标题
book_abstract varchar2(2000),--摘要
path varchar2(200)--路径
);
commit;

insert into textdemo values(1,'宫琦峻',to_date('2008-10-07','yyyy-mm-dd'),'移动城堡','故事发生在19世纪末的欧洲,善良可爱的苏菲被恶毒的女巫施下魔咒,从18岁的女孩变成90岁的婆婆,孤单无助的她无意中走入镇外的移动城堡,据说它的主人哈尔以吸取女孩的灵魂为乐,但是事情并没有人们传说的那么可怕,性情古怪的哈尔居然收留了苏菲,两个人在四脚的移动城堡中开始了奇妙的共同生活,一段交织了爱与痛、乐与悲的爱情故事在战火中悄悄展开','E:\textsearch\moveingcastle.doc');

insert into textdemo values(2,'莫·贝克曼贝托夫',to_date('2008-10-07','yyyy-mm-dd'),'子弹转弯','这部由俄罗斯导演提莫·贝克曼贝托夫执导的影片自6月末在北美上映以来,已经在全球取得了超过3亿美元的票房收入。在亚洲上映后也先后拿下日本、韩国等地的票房冠军宝座。虽然不少网友在此之前也相继通过各种渠道接触到本片,但相信影片凭着在大银幕上呈现出的超酷的视听效果,依然能够吸引大量影迷前往影院捧场。','E:\textsearch\catch.pdf');

insert into textdemo values(3,'袁泉',to_date('2008-10-07','yyyy-mm-dd'),'主演吴彦祖和袁泉现身','电影《如梦》在上海同乐坊拍摄,主演吴彦祖和袁泉现身。由于是深夜拍摄,所以周围并没有过多的fans注意到,给了剧组一个很清净的拍摄环境,站在街头的袁泉低着头,在寒冷的夜里看上去还真有些像女鬼,令人毛骨悚然。','E:\textsearch\dream.txt');

commit;


1.3在摘要字段上创建索引


/*
*创建索引,使用默认的参数
*/
--drop index demo_abstract;
create index demo_abstract on textdemo(book_abstract)
indextype is ctxsys.context
--parameters('datastore ctxsys.default_datastore filter ctxsys.auto_filter ')
;
commit;
;
系统会创建四个相关的表
DR$DEMO_ABSTRACT$I(分词后的TOKEN表)\DR$DEMO_ABSTRACT$K\DR$DEMO_ABSTRACT$N\DR$DEMO_ABSTRACT$R
查看索引创建过程中是否发生了错误

SELECT * FROM ctx_USER_index_errors

1.4测试查询

select score(20),t.* from textdemo t where contains(book_abstract,'移动城堡 or 俄罗斯',20)>0;

select score(20),t.* from textdemo t where contains(book_abstract,'移动城堡 or 俄罗斯',20)>0 and t.title like '子弹%';


1.5查看索引脚本
select ctx_report.create_index_script('file_index') from dual;

2.对外部文件进行全文检索
ORACLE TEXT可以对文件系统中的文件进行检索,支持大部分的文件格式(如:OFFICE、PDF等),不同的格式ORACLE TEXT会选择不同的
FILTER 提取二进制文件中的纯文本,生成一个虚拟的DOCUMENT,如同对单个文本型COLUMN创建索引一样。这一切都由ORACLE TEXT自己完成。
使用上表textdemo的数据,我们对path 创建索引

begin
--ctx_ddl.drop_preference('my_filter');
ctx_ddl.create_preference('my_filter','auto_filter');
end;
/
begin
--ctx_ddl.drop_preference('my_store');
ctx_ddl.create_preference('my_store','file_datastore');
/*
--设置文件的路径,由于此处数据表中已经包含了路径
不需要再进行设置,如果表中只有文件名称无路径信息,
需要设置该参数,如果文件在不同的路径下,也可以设置
多个路径WINDOWS下用";"分开,UNIX用":",
限制:设置目录后的文件名不应有路径信息,避免不同的目录
下有相同的文件名.
ctx_ddl.set_attribute('mystore','path','E:\demo;E:\textsearch');
*/
--ctx_ddl.set_attribute('mystore','path','E:\demo');
end;
/
begin
--ctx_ddl.drop_preference('my_lexer');
ctx_ddl.create_preference('my_lexer','chinese_lexer');
end;

/

--drop index demo_path;
create index demo_path on textdemo(path)
indextype is ctxsys.context
parameters('
datastore my_store
filter my_filter
lexer my_lexer
');

commit;




2.1查询

select score(20),t.* from textdemo t where contains(path,'苏菲 and 城堡',20)>0

--联合第一次对book_abstract做的索引进行查询
select score(5),score(20),t.* from textdemo t where contains(book_abstract,'电影',5)>0 AND contains(path,'数据库 and 全文检索',20)>0

2.2查看索引的大小信息
select ctx_report.index_size('demo_path') from dual

2.3 同步索引
索引异常可以从CTX_USER_INDEX_ERRORS视图跟踪。
数据库根据索引列的改变跟踪文档的改变,如果想强制ORACLE TEXT重新创建特定文档的索引,可以更新相对应行中的索引字段:
update textdemo set path=path where id = 4;
在索引同步时将会更新ID=4文件的关键字。


--update textdemo set path='E:\textsearch\dream.txt' where id=3;
update textdemo set path='E:\textsearch\catch.pdf' where id=2;
--update textdemo set path='E:\textsearch\movingcastle.doc' where id=1;
commit;
begin
/*
指定索引名称,和内存大小
*/
ctx_ddl.sync_index('demo_path','20M') ;
end;



3使用自定义的存储过程
USER_DATASTORE:合成索引时使用用户指定的存储过程
ATTRIBTES:
procedure:指明合成用于索引文本的存储过程,第一个参数必须为ROWID,当存储过程改变后,需要重新建立索引,
索引只会在指明定的字段修改或增加,同步索引才会起作用。
output_type:指定存储过程的第二个参数的数据类型(CLOB,CLOB_LOC,BLOB_LOC,VARCHAR2)默认为:CLOB,
当指定为CLOB_LOC,BLOB_LOC时,表示不需要临时的CLOB或BLOB变明,因为PROCEDURE复制一个locator到第二个IN/OUT参数
/*
创建自定义的存储过程
*/
create or replace procedure myproc(rid in rowid,tlob in out clob nocopy)

is

begin
for c1 in (select author,title,text from articles where rowid = rid)
loop
dbms_lob.writeappend(tlob,length(c1.title),c1.title);
dbms_lob.writeappend(tlob,length(c1.author),c1.author);
dbms_lob.writeappend(tlob,length(c1.text),c1.text);
end loop;
end;
/*
定位数据的存放形式,使用自定义的存储过程
*/

begin
ctx_ddl.create_preference('myud','user_datastore');
ctx_ddl.set_attribute('myud','procedure','myproc');
ctx_ddl.set_attribute('myud','output_type','clob');
end;

创建索引时,除了改变PARAMETERS('DATASTORE MYUD')外,其它的都不用做更改。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值