【数据库之postgreSQL】全文索引之飞快

87 篇文章 4 订阅
23 篇文章 3 订阅

搜索是项非常重要的功能,所以像和solr和es这样的基于的工具变得很流行。但使用这些大规模“杀伤性”的搜索武器,需要额外的成本。有时候我们只想用下简单的搜索,但是关系型数据库的的like和in又太慢,更别提find_in_set()函数,任何在密集sql查询里面使用函数都是罪大恶极。

那么postgresql就是你的首选了,使用它的理由是

  • 我们只需使用postgresql,不必安装其它的搜索引擎,就能支持良好的千万级搜索性能。
  • 使用其它的数据库(比如mysql),全文索引十分不稳定。
    这里不再介绍什么是全文索引,请自行gg or dd
    注意这里还有个坑:如果某个索引字段值为空,会导致索引失效,查不出数据。所以一定不能为null

PostgreSQL 中的全文搜索

全文搜索(FTS) 允许对文档进行预处理并保存索引以供以后快速搜索和排名。请参阅官方文档(https://www.postgresql.org/docs/13/textsearch-intro.html),该文档非常完整,提供了理解和实施 FTS 所需的所有信息。
PG(Postgres)中 FTS 的主要构建块是:

  • tsvector,它代表一个可搜索的文档
  • tsquery,这是针对文档执行的搜索查询

转换为文档类型

to_tsvector函数解析输入文本并将其转换为表示可搜索文档的搜索类型。说人话就是to_tsvector是PostgreSQL内置的一个分词函数,它可以将一段文本按照某种分词规则进行分词

SELECT to_tsvector('Java in a nutshell')

将输出以下内容:

"'java':1 'nutshel':4"

结果是准备被搜索的词位列表,停用词(“in”、“a”、“the”等)被删除
数字是文档中词位的位置:java:1从第 1 个位置开始,而nutshell:4从第 4 个位置开始(PostgreSQL目前并不支持中文分词,如果需要对中文分词,则需要安装中文分词器,现在最流行的是zhparser)

查询

to_tsquery函数解析输入文本并将其转换为表示查询的搜索类型。例如,用户想要搜索“java in a nutshell”:

SELECT to_tsquery('java & in & a & nutshell');

将给出以下内容

"'java' & 'nutshel'"

结果是准备好被查询的列表
停用词(“in”、“a”、“the”等)被删除

运算法

@@ 运算符允许将查询与文档匹配并返回 true 或 false

/* true */
SELECT to_tsquery('java & in & a & nutshell') @@ to_tsvector('Java in a nutshell'); 

发现没有,其实到目前为止我们并没有建索引,而是通过to_tsquery转换来实现完成全文检索功能。

实例

在PostgreSQL中为gin和gist来加速查询,一般推荐使用gin,gin索引查询速度优于gist,但创建过程比较慢,且索引占用的磁盘量比较高
默认只支持英文,中文也分词也不太准确。他是一句一个词库来分词的,如果有逗号和英文中的介词这种比较好分,也比较准。

创建索引
create index 索引名称 on 表名 using gin(to_tsvector(‘english’,字段名))
查询
select * from 表名 where to_tsvector(‘english’,字段名) @@ to_tsquery(‘english’,‘要搜索的名次’)

@@指包含 因为建立索引的时候指明了语言,所以查询的时候也要指明语言,否则不会使用索引。
支持多个字段

支持多列

CREATE INDEX 索引名 ON 表名 USING gin(to_tsvector('english', 字段一 || 字段二));

这里注意,如果有一列为空,死活都查不出来。我当时是直接保存了空串进去,但是不能为null。函数coalesce来确保字段为NULL的可以建立索引,如下:

ALTER TABLE pgweb ADD COLUMN textsearchable_index_col tsvector;
UPDATE pgweb SET textsearchable_index_col =
     to_tsvector('english', coalesce(title,'') || coalesce(body,''));
然后,我们就可以创建倒排的索引
CREATE INDEX textsearch_idx ON pgweb USING gin(textsearchable_index_col);
索引创建完毕,我们就可以使用全文检索了。
SELECT title
FROM pgweb
WHERE textsearchable_index_col @@ to_tsquery('create & table')
ORDER BY last_mod_date DESC LIMIT 10;
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值