推荐阅读:
- 面试BAT 却被小小字符串秒杀?这13道题帮你一举击败字符串算法题
- 字节跳动秋招面经:后端开发工程师,已拿意向书
前言
平时的编码中,我们经常需要判断两个文本的相似性,不管是用来做文本纠错或者去重等等,那么我们应该以什么维度来判断相似性呢?这些算法又怎么实现呢?这篇文章对常见的计算方式做一个记录。
Jaccard 相似度
首先是 Jaccard 相似度系数,下面是它在维基百科上的一个定义及计算公式。
The Jaccard index, also known as Intersection over Union and the Jaccard similarity coefficient (originally given the French name coefficient de communauté by Paul Jaccard), is a statistic used for gauging the similarity and diversity of sample sets. The Jaccard coefficient measures similarity between finite sample sets, and