PostgreSQL 文本数据分析实践之 - 相似度分析

最新推荐文章于 2023-06-30 18:38:04 发布

weixin_34128534

最新推荐文章于 2023-06-30 18:38:04 发布

阅读量1.6k

点赞数

文章标签：数据库 git

原文链接：https://yq.aliyun.com/articles/59212

版权

本文介绍了如何利用PostgreSQL进行文本数据分析，包括按文本相似度、分词相似度和各种相近度（如年龄、喜好）进行排序。文中提到了pg_trgm、rum插件以及MADlib插件在文本挖掘和深度分析中的应用。

摘要由CSDN通过智能技术生成

背景

在日常的生活中，我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求，对数据进行筛选。

这些需求PostgreSQL居然都支持，是不是很变态。

变态的例子

这些场景都支持索引排序和检索，否则怎么叫变态呢。

按长相相似度排序

比如最近的王宝强和马蓉的事件，估计很多人会拿宋喆的照片进行相似度的搜索，八卦八卦。
说起图像搜索，我前几天才写了一篇这样的文章，是关于在PG数据库中使用图像搜索插件的文章。
《弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wavelet)》
https://yq.aliyun.com/articles/58246

按喜好重合度排序

比如收集了人群的各种喜好的数据，按喜好进行聚类，或者按喜好的重叠度进行排序，找出目标人群。

按年龄相近程度排序

这个相对简单，比如输入23岁，按接近23岁的输出即可。
例子 https://www.postgresql.org/docs/9.5/static/btree-gist.html
输出与100最接近的10条数据。

postgres=# create extension btree_gist;
CREATE EXTENSION
postgres=# create table test12(id int);
CREATE TABLE
postgres=# insert into test12 select trunc(random()*1000) from generate_series(1,100000);
INSERT 0 100000
postgres=# create index idx_test12 on test12 using gist(id);
CREATE INDEX
postgres=# select * from test12 order by id <-> 100 limit 10;
 id  
-----
 100
 100
 100
 100
 100
 100
 100
 100
 100
 100
(10 rows)

按距离排序

https://www.postgresql.org/docs/9.5/static/functions-geometry.html
例如取出与某个点最近的10个点。

postgres=# create table test13(c1 po

最低0.47元/天解锁文章

weixin_34128534

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
PostgreSQL 文本数据分析实践之 - 相似度分析

背景在日常的生活中，我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求，对数据进行筛选。这些需求PostgreSQL居然都支持，是不是很变态。变态的例子这些场景都支持索引排序和检索，否则怎么叫变态呢。按长相相似度排序比如最近的王宝强和马蓉的事件，估计很多人会拿宋喆的照片进行相似度的搜索，八卦八卦。说起图像...
复制链接

扫一扫