matlab实现余弦相似度_基于TF-IDF方法计算文本相似度的python实现代码

最新推荐文章于 2021-03-26 04:46:09 发布

十八线编剧田锦鲤

最新推荐文章于 2021-03-26 04:46:09 发布

阅读量724

点赞数

文章标签： matlab实现余弦相似度

本文链接：https://blog.csdn.net/weixin_42350470/article/details/112161216

版权

本文提供了一种基于matlab和python实现TF-IDF方法计算文本相似度的代码思路，包括读取excel内容、分词、计算词频、转换为稀疏向量和计算余弦相似度。

摘要由CSDN通过智能技术生成

---前排提醒：本文不涉及相关原理介绍，仅提供代码设计思路

本人设计的基本框架如下：
1. 读取excel中特定单元格的内容

2. 存储至列表后进行分词

3. 采用TF-IDF计算相似度

以下为代码实现的一种思路：

提取excel内容

需要用到xlrd

N1 = "xxxxxx.xlsx"
import xlrd
goal_list = []
def getexcel():
    rbook = xlrd.open_workbook(N1)
    rbook.sheets()
    rsheet = rbook.sheet_by_index(0)
    for row in rsheet.get_rows():
        reply_column = row[8]
        reply_value = reply_column.value
        if reply_value == 'XXXX':
            continue
        else:
            goal_list.append(reply_value)

将文件地址存储至变量N1中，打开第一个工作簿，选择第8行（

最低0.47元/天解锁文章

十八线编剧田锦鲤

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
matlab实现余弦相似度_基于TF-IDF方法计算文本相似度的python实现代码

---前排提醒：本文不涉及相关原理介绍，仅提供代码设计思路本人设计的基本框架如下：1. 读取excel中特定单元格的内容2. 存储至列表后进行分词3. 采用TF-IDF计算相似度以下为代码实现的一种思路：提取excel内容需要用到xlrdN1 = "xxxxxx.xlsx"import xlrdgoal_list = []def getexcel(): rbook = xlrd.o...
复制链接

扫一扫