sklearn计算余弦相似度

原创 2018年01月17日 11:18:13

余弦相似度在计算文本相似度等问题中有着广泛的应用,scikit-learn中提供了方便的调用方法
第一种,使用cosine_similarity,传入一个变量a时,返回数组的第i行第j列表示a[i]与a[j]的余弦相似度

>>> from sklearn.metrics.pairwise import cosine_similarity
>>> a=[[1,3,2],[2,2,1]]
>>> cosine_similarity(a)
array([[1.        , 0.89087081],
       [0.89087081, 1.        ]])

第二种使用pairwise_distances,注意该方法返回的是余弦距离,余弦距离= 1 - 余弦相似度,同样传入一个变量a时,返回数组的第i行第j列表示a[i]与a[j]的余弦距离

>>> from sklearn.metrics.pairwise import pairwise_distances
>>> pairwise_distances(a,metric="cosine")
array([[0.        , 0.10912919],
       [0.10912919, 0.        ]])
版权声明:本文为博主原创文章,未经博主允许不得转载。

机器学习分类算法(一)——余弦相似度

概述:余弦相似度是通过测量两个向量点积空间夹角的余弦值来判断相似性。0°角的余弦值是1,90°为0,余弦值大小在[-1,1]区间。 数学原理:        向量:空间中有两个点原点O和点A,OA...
  • lhrsdl
  • lhrsdl
  • 2015年11月23日 20:52
  • 1683

一段简单实现【余弦相似度】的python代码

#-*-coding:utf-8-*- def cos(vector1,vector2): dot_product = 0.0; normA = 0.0; no...
  • sscssz
  • sscssz
  • 2016年07月14日 10:44
  • 5861

利用余弦相似度来实现文本间的相似度计算

1:对文本的分类,不管用什么高级的方法,首先还是需要建立数学模型的,这个地方就用SVM来建立,他的原理是根据文本的特征,比如一个文本有10个特征(一般来说每个特征是一个代表这个文本的关键词),那么这个...
  • panjiao119
  • panjiao119
  • 2017年09月26日 15:40
  • 413

numpy欧氏距离和余弦相似度

两者相同的地方,就是在机器学习中都可以用来计算相似度,但是两者的含义有很大差别,以我的理解就是: 前者是看成坐标系中两个点,来计算两点之间的距离; 后者是看成坐标系中两个向量,来计算两...
  • u013749540
  • u013749540
  • 2016年07月03日 09:13
  • 7158

Java代码——计算两个HashMap的余弦相似度

首先,要先介绍HashMap的遍历方法
  • Lemon_sister
  • Lemon_sister
  • 2014年04月17日 10:49
  • 867

Python简单实现基于VSM的余弦相似度计算

在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知...
  • Eastmount
  • Eastmount
  • 2015年11月18日 05:40
  • 17077

余弦相似度的计算方法及在文本相似度方面的应用

源自:http://blog.sina.com.cn/s/blog_4a6b27a30102vbr0.html 余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,...
  • yuhushangwei
  • yuhushangwei
  • 2015年09月18日 09:34
  • 5738

余弦方法计算相似度算法--Python实现 Java实现

(1)余弦相似性            通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余...
  • u011630575
  • u011630575
  • 2016年08月09日 20:02
  • 1519

SparkMLlib---基于余弦相似度的用户相似计算

package mllib import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkContext, SparkC...
  • sinat_31726559
  • sinat_31726559
  • 2016年08月04日 21:11
  • 4266

相似度算法之余弦相似度

转自:http://blog.csdn.net/u012160689/article/details/15341303 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个...
  • zz_dd_yy
  • zz_dd_yy
  • 2016年07月16日 20:50
  • 9826
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:sklearn计算余弦相似度
举报原因:
原因补充:

(最多只允许输入30个字)