Final Word Similarity 开源项目指南

强美玮Quincy

于 2024-08-10 08:38:21 发布

阅读量291

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00411/article/details/141084603

版权

Final Word Similarity 开源项目指南

项目介绍

Final Word Similarity 是一个用于计算两个单词之间相似度的开源工具包. 它基于 PostgreSQL 的内置函数 similarity() 和 strict_word_similarity() 提供了更精确且可定制的词间相似性测量方法. 此工具包不仅适合于自然语言处理(NLP), 文本挖掘等领域, 同时还能够提供给开发人员一种简便的方式来提升其应用程序中的搜索和匹配功能.

在 Final Word Similarity 中, 我们克服了原始 PostgreSQL 函数的一些局限性, 比如对子串和单词界限的识别不够精准等问题. 我们设计了一套新的算法来评估字符串间的相似性, 并将其封装成易于使用的 SQL 函数。

项目快速启动

要开始使用 Final Word Similarity, 首先您需要具备 PostgreSQL 数据库环境, 版本推荐在 PostgreSQL 11 及以上版本.

下面是如何在 PostgreSQL 内部安装并调用 Final Word Similarity 功能的基本步骤:

步骤一: 创建或替换现有的自定义函数

在数据库中运行以下SQL命令以创建或替换 my_word_similarity 自定义函数:

CREATE OR REPLACE FUNCTION my_word_similarity(TEXT, TEXT)
RETURNS REAL AS
$BODY$
SELECT strict_word_similarity(word1, word2)
FROM   (
    SELECT UNNEST(regexp_split_to_array($2, E'\\W+')) AS word2,
           UNNEST(regexp_split_to_array($1, E'\\W+')) AS word1
) AS split_words
ORDER BY word_similarity DESC
LIMIT 1;
$BODY$
LANGUAGE SQL IMMUTABLE;

步骤二: 调用函数

现在, 您可以在任何查询语句中使用该自定义函数 my_word_similarity 来比较任意两组文本之间的相似性, 下面是示例:

WITH test_data(word) AS(
    VALUES('hello world')
        ,('hello world!')
        ,('hello, world!!')
        ,('world hello')
)
SELECT *, 
       my_word_similarity(word,'hello world') AS similarity_ratio
FROM test_data;

这将得到结果集, 其中包括每条输入数据及其与参考词汇 ("hello world") 的相似性得分.