oracle text全文检索

最新推荐文章于 2024-08-14 13:53:49 发布

konghen12

最新推荐文章于 2024-08-14 13:53:49 发布

阅读量433

点赞数

文章标签： oracle 全文检索

本文链接：https://blog.csdn.net/konghen12/article/details/78061442

版权

Oracle实现全文检索，其机制其实很简单。即通过Oracle专利的词法分析器(lexer),将文章中所有的表意单元（Oracle称为 term）找出来，记录在一组以dr$开头的表中，同时记下该term出现的位置、次数、hash值等信息。检索时，Oracle从这组表中查找相应的 term，并计算其出现频率，根据某个算法来计算每个文档的得分（score）,即所谓的‘匹配率’。而lexer则是该机制的核心，它决定了全文检索的效率。

首先查看有没有ctxsys用户，因为oracle全文检索需要ctxsys用户的支持，其实主要是需要使用ctxsys用户下的ctx_ddl这个包，这个包中绝大部分过程的创建都与全文检索有关。：

select * from dba_users WHERE username=’CTXSYS’;

然后创建oracle分析器，类似于solr的分词，将需要检索的记录，按照一定的方式进行词组拆分，然后存放在索引表中。检索的时候根据索引表中存放的拆分词组，对传入的关键字进行匹配，并返回匹配结果：

BEGIN
ctx_ddl.create_preference (‘my_lexer’, ‘chinese_vgram_lexer’);
END;

‘my_lexer’是自己设定的分析器的名称，
‘chinese_vgram_lexer’是oracle text分析器中的一种。

oracle text中的分析器有3种：

basic_lexer：只能根据空格和标点来进行拆分。比如“中国重庆”，只能拆分为“中国重庆”一个词组；
chinese_vgram_lexer：专门的汉语分析器，按字单元进行拆分，比如“中国重庆”，可以拆分为“中”、“中国“、”国重”、“重庆”、“庆”五个词组。这种方式的好处是能够将所有有可能的词组全部保存进索引表，使得数据不会遗漏；
chinese_lexer：一种新的汉语分析器，能够认识大部分常用的汉语词汇，并按常用词汇进行拆分存储。比如“中国重庆”，只会被拆分为“中国”、“重庆”两个词组。

创建索引：