这篇文章继续介绍全文索引的FILTER属性,介绍对不同类型的数据采用不同类型的FILTER属性的方法。
如果Oracle索引的文档包括多种类型,比如doc文件、html文件、pdf文件、纯文本文件等等。由于Oracle不建议对HTML、XML和纯文本文件使用INSO_FILTER,因此没有一个统一适用的FILTER属性适合所有的文档。
[@more@]Oracle提供了一种FORMAT列的方法,通过设置FORMAT列的内容可以通知Oracle建立何种FILTER甚至是不建立索引。下面看一个简单的例子:
[oracle@rhel140 ~]$ sqlplus myuser/myuser
SQL*Plus: Release 10.2.0.1.0 - Production on Sun May 17 21:35:01 2009
Copyright (c) 1982, 2005, Oracle. All rights reserved.
Connected to:
Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - Production
With the Partitioning, OLAP and Data Mining options
SQL> CREATE TABLE T (ID NUMBER, TYPE VARCHAR2(6), DOCS VARCHAR2(100));
Table created.
SQL> INSERT INTO T VALUES (1, 'BINARY', 'pdf.pdf');
1 row created.
SQL> INSERT INTO T VALUES (2, 'TEXT', 'OUTPUT.TXT');
1 row created.
SQL> INSERT INTO T VALUES (3, 'IGNORE', 'doc1.doc');
1 row created.
SQL> COMMIT;
Commit complete.
SQL> BEGIN
2 CTX_DDL.CREATE_PREFERENCE('TEST_FILE', 'FILE_DATASTORE');
3 CTX_DDL.SET_ATTRIBUTE('TEST_FILE', 'PATH', '/home/oracle');
4 END;
5 /
PL/SQL procedure successfully completed.
SQL> CREATE INDEX IND_T_DOCS ON T (DOCS) INDEXTYPE IS CTXSYS.CONTEXT
2 PARAMETERS ('DATASTORE TEST_FILE FILTER CTXSYS.INSO_FILTER FORMAT COLUMN TYPE');
Index created.
SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;
ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT
1 BINARY
pdf.pdf
'doc1.doc'文档中有'ORACLE'字符串没有被查到,是因为'IGNORE'起了作用。
发现表T的列TYPE的值很重要,是因为FORMAT COLUMN指定为“TYPE”列,设置为BINARY的文档使用INST_FILTER,设置为TEXT的文档使用NULL_FILTER,设置为IGNORE的文档不进行索引。
SQL> update t set type='BINARY' where id=3;
1 row updated.
SQL> commit;
Commit complete.
SQL> exec ctx_ddl.sync_index('IND_T_DOCS');
PL/SQL procedure successfully completed.
SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;
ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
2 TEXT
OUTPUT.TXT
1 BINARY
pdf.pdf
sync过还是查询不到,需要做rebuild
SQL> alter index IND_T_DOCS rebuild;
Index altered.
SQL> SELECT * FROM T WHERE CONTAINS(DOCS, 'ORACLE') > 0;
ID TYPE
---------- ------
DOCS
--------------------------------------------------------------------------------
1 BINARY
pdf.pdf
2 TEXT
OUTPUT.TXT
3 BINARY
doc1.doc
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/271283/viewspace-1022213/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/271283/viewspace-1022213/