浅谈oracle数据库相似度比较函数UTL_MATCH.edit_distance_similarity

最新推荐文章于 2025-06-07 12:20:07 发布

原创最新推荐文章于 2025-06-07 12:20:07 发布 · 4.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #oracle #sql

博客介绍了数据库操作中，Oracle提供的utl_match.edit_distance_similarity函数用于相似度比较。分析了该函数运行结果的特点，如与对比对象顺序无关、相似度数值会四舍五入。还解释了对比对象完全不同但相似度不为0的原因，涉及匹配规则等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在数据库操作中，有时会用到相似度的比较，oracle为大家提供了一个很好用的函数：utl_match.edit_distance_similarity

比如：

SELECT UTL_MATCH.edit_distance_similarity('张三','李四') FROM dual;
SELECT UTL_MATCH.edit_distance_similarity('张三','张二麻子') FROM dual;
SELECT UTL_MATCH.edit_distance_similarity('张二麻子','张三') FROM dual;

运行结果：

0
34
34

从运行结果可以看出两个问题，1.结果与对比的两个对象的顺序无关；2.相似度的数值存在四舍五入的情况。

有时候在使用相似度函数时，对比的两个对象完全不同，但相似度的数值不为0。

比如：

SELECT UTL_MATCH.edit_distance_similarity('张二麻子111','李四') FROM dual;
SELECT UTL_MATCH.edit_distance_similarity('张二麻子22','李四') FROM dual;

运行结果：

7
8

出现以上情况，这是因为：两个参数中字符长的长度作为分母，汉字为2个长度单位，匹配的长度为分子，结果四舍五入；匹配规则类似sql中的like'%a%'，'a%'，'%a'去匹配所有字符,例如UTL_MATCH.edit_distance_similarity('我1你','他1')=0/5=0，因为虽然都有1，但前者1在中间，相当于like %1%，而后者相当于like %1，二者不作相似。

如有其他见解的你，请不吝赐教