拓扑相似性
语义相似性(semantic similarity)定义在一组文档上或者术语上的度量,他们之间的距离基于他们的意义或者语义内容的相似性,而不是语法表示上的相似性。我们可以通过定义拓扑相似性来估计语义相似性。
生物医学上的应用:它们主要用于比较基因和蛋白质的功能相似性,而不是它们的序列相似性,但它们也正在扩展到其他生物实体,如化合物,解剖实体和疾病等方面。
常用来计算相似性:
1.jaccard 相似性:Jaccard指数也称为交集交汇点和Jaccard相似系数(Paul Jaccard最初创造的系数),是用于比较样本集的相似性和多样性的统计量。 Jaccard系数测量有限样本集之间的相似性,并将其定义为交点的大小除以样本集的并集大小:如果AB都是空集的话,也定义为J(A