GBase 8c 数据类型-文本搜索类型 之 tsvector

GBase 8c 的 tsvector 类型用于全文检索,它存储标准化词位的有序列表。tsvector 通过 to_tsvector 函数处理文本,自动排序和去重。词条可包含特殊字符,用引号或双$$标记。位置常量表示词在文档中的位置,权标记(A、B、C、D)可用于区分文档结构。示例展示了tsvector的使用及规范化处理。
摘要由CSDN通过智能技术生成

GBase 8c提供了两种用于全文检索的数据类型。tsvector类型用于为文本搜索优化的文件格式,tsquery类型用于文本查询。

svector类型表示检索单元,通常是数据库表中一行的文本字段或者这些字段的组合。to_tsvector函数通常用于解析和标准化文档字符串。

tsvector类型的值是一个唯一标准词位的有序列表。把同一个词的变型体都进行标准化得到同样的标准词,在输入的同时,tsvector会自动排序和消除重复。例如:

gbase=# SELECT 'a fat cat sat on a mat and ate a fat rat'::tsvector;

                      tsvector

----------------------------------------------------

 'a' 'and' 'ate' 'cat' 'fat' 'mat' 'on' 'rat' 'sat'

(1 row)

从上面的例子可以看出,tsvector格式中,字符串按照空格进行分词,并按照长短和字母排序。但是如果词条中需要包含空格或标点符号,可以用引号标记。例如:

gbase=# SELECT $$the lexeme ' ' contains spaces$$::tsvector;

                tsvector

----------------------------------------

 ' ' 'contains' 'lexeme' 'sp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值