一、欧氏距离
- 聚类分析:用于 K-means 聚类算法,衡量数据点相似性以划分不同簇。
- 特征匹配:在计算机视觉和图像处理领域,比较图像等特征向量相似性,用于图像检索、分类、人脸识别等。
- 数据降维:在主成分分析、线性判别分析等降维技术中,衡量高维数据空间变量相似性辅助特征选择与降维。
- 推荐系统:协同过滤推荐算法里,衡量用户间兴趣相似性来推荐物品或内容。
- 数据挖掘:在聚类、分类和异常检测等任务中,度量数据点差异与相似性进行模式识别和异常检测。
二、余弦相似度
- 自然语言处理:文本分类任务中将文本转词向量,计算其判断语义相似性以分类文本;还用于文本相似性分析、信息检索(如搜索引擎中计算用户查询与文档相似度返回相关文档)。
- 推荐系统:衡量用户历史偏好向量和物品特征向量间相似度来推荐商品。
- 图像和声音对比:可对比人脸、声音等特征向量判断图片或声音相似度。
三、曼哈顿距离
- 城市规划:用于道路网络规划和交通流量优化,评估城市不同区域交通便捷性与可达性。
- 医疗影像处理:评估医学影像中组织结构或病变区域距离与相似性,辅助医生诊断、治疗及医学影像配准和对齐。
- 路径规划和导航:在地图上估计两点间实际行驶距离确定最短路径或导航方案。
- 电子商务:衡量产品或服务相似性推荐相关商品或服务。
- 计算机视觉:比较两个图像间相似性或距离,如在文本检测和 OCR 中使用。
- 传感器网络:估计物理位置或传感器间距离,实现位置估计和目标跟踪等任务。
四、闵可夫斯基距离
- 可根据不同参数 p 值灵活调整距离度量方式,适应不同数据特性和分布,在数据挖掘、机器学习等领域作为通用距离度量方法用于衡量数据点间距离或相似性任务。
五、杰卡德相似度
- 常用于文本处理中比较两篇文章关键词集合或两个用户兴趣爱好集合等判断集合间相似程度;还用于生物信息学中比较基因集合或蛋白质功能集合相似性。
六、皮尔逊相关系数
- 在数据分析中,判断两个特征间是否存在线性关系,如分析学生数学成绩和物理成绩相关性;也用于金融领域衡量不同股票价格走势相关性。
七、图谱相似度
- 在知识图谱构建和应用中,评估实体或概念相似性,如医学知识图谱中疾病概念相似度;还用于知识图谱融合、对齐及基于知识图谱的推荐系统。
八、图相似度
- 在社交网络分析中,比较不同社交圈子或网络结构相似性;也用于生物网络、电力网络等复杂网络分析和比较及图数据分类和聚类等任务。
九、引用关系相似度
- 在学术文献、专利等领域,确定文献间相似性,帮助研究人员发现相关研究和知识传承脉络;还用于评估学者、研究机构间学术影响力相似性。
十、总结
欧氏距离和余弦相似度较主流,但不同领域和具体问题中其他方法也广泛应用,需根据数据特点和应用需求选择合适方法。