句子相似度--余弦相似度算法的实现

  • 1、余弦相似度

余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。

                             

上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图:

                               

如上图可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者说是相等的。如果a和b向量夹角较大,或者反方向,可以说a向量和b向量有很低的的相似性,或者说a和b向量代表的文本基本不相似。

向量a和向量b的夹角 的余弦计算如下:

      

扩展,如果向量a和b不是二维而是n维,上述余弦的计算法仍然正确。假定a和b是两个n维向量,a是  ,b是  ,则a与b的夹角 的余弦等于:

 

  • 2、如下举例说明利用余弦计算句子相似度

句子A:这只皮靴号码大了。那只号码合适
句子B:这只皮靴号码不小,那只更合适

怎样计算上面两句话的相似程度?
基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。

第一步,分词。

句子A:这只/皮靴/号码/大了。那只/号码/合适。

句子B:这只/皮靴/号码/不/小,那只/更/合适。

第二步,列出所有的词。

这只,皮靴,号码,大了。那只,合适,不,小,更

第三步,计算词频。(下面程序用的jieba分词工具所以结果不一样但不影响计算)

句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0

句子B:这只1,皮靴1,号码1,大了0。那只1,合适1,不1,小1,更1

第四步,写出词频向量。

句子A:(1,1,2,1,1,1,0,0,0)

句子B:(1,1,1,0,1,1,1,1,1)

第五步,利用上述公式计算

  • 3、python代码实现
 1 # -*- coding: utf-8 -*-
 2 """
 3 Created on Mon Jul 30 09:35:54 2018
 4 
 5 @author: Administrator
 6 """
 7 
 8 import jieba
 9 import numpy as np
10 
11 def get_word_vector():
12     """
13     w = np.ones((3,4))
14     q = np.ones((3,4"))
15     print(w)
16     print(np.sum(w * q))
17    """
18    
19     s1 = input("句子1:")
20     s2 = input("句子2:")
21     
22     cut1 = jieba.cut(s1)
23     cut2 = jieba.cut(s2)
24     
25     list_word1 = (','.join(cut1)).split(',')
26     list_word2 = (','.join(cut2)).split(',')
27     print(list_word1)
28     print(list_word2)
29     
30     key_word = list(set(list_word1 + list_word2))#取并集
31     print(key_word)
32     
33     word_vector1 = np.zeros(len(key_word))#给定形状和类型的用0填充的矩阵存储向量
34     word_vector2 = np.zeros(len(key_word))
35   
36     for i in range(len(key_word)):#依次确定向量的每个位置的值
37         for j in range(len(list_word1)):#遍历key_word中每个词在句子中的出现次数
38             if key_word[i] == list_word1[j]:
39                 word_vector1[i] += 1
40         for k in range(len(list_word2)):
41             if key_word[i] == list_word2[k]:
42                 word_vector2[i] += 1
43 
44     print(word_vector1)#输出向量
45     print(word_vector2)
46     return word_vector1, word_vector2
47 
48 def cosine():
49     v1, v2 = get_word_vector()
50     return float(np.sum(v1 * v2))/(np.linalg.norm(v1) * np.linalg.norm(v2)) 
51 
52 print(cosine())
  • 4、运行结果

转载于:https://www.cnblogs.com/Jm-15/p/9406425.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中的文本相似度可以通过基于TF-IDF和余弦相似算法实现。TF-IDF(Term Frequency-Inverse Document Frequency)是用于评估一个词语在一个文档中的重要程度的方法。 首先,我们需要使用Python中的文本处理库(如nltk)来对文本进行预处理,包括分词、去除停用词、词干化等。接下来,我们可以使用sklearn库中的TF-IDF向量化器来将文本转换为TF-IDF特征向量。 然后,我们可以使用余弦相似算法来计算两个文本之间的相似度。余弦相似度是通过计算两个向量之间的夹角来度量它们的相似程度的。 以下是一个简单的示例代码: ```python import nltk from nltk.corpus import stopwords from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity def preprocess_text(text): # 分词 tokens = nltk.word_tokenize(text) # 去除停用词 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token.lower() not in stop_words] # 词干化 stemmer = nltk.PorterStemmer() tokens = [stemmer.stem(token) for token in tokens] # 返回处理后的文本 return " ".join(tokens) def calculate_similarity(text1, text2): # 预处理文本 processed_text1 = preprocess_text(text1) processed_text2 = preprocess_text(text2) # 转换为TF-IDF特征向量 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform([processed_text1, processed_text2]) # 计算余弦相似度 cosine_sim = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1]) # 返回相似度 return cosine_sim[0][0] text1 = "今天天气不错" text2 = "今天天气很好" similarity = calculate_similarity(text1, text2) print("文本1和文本2的相似度为:", similarity) ``` 在以上示例中,我们先对文本进行了预处理,并使用TF-IDF向量化器将其转换为特征向量。然后,我们使用余弦相似算法计算了文本1和文本2之间的相似度,并输出结果。 这只是一个简单的示例,实际应用中可能需要更多的预处理步骤和参数调整来获得更好的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值