python计算文本偏移量_基于TF-IDF方法计算文本相似度的python实现代码

最新推荐文章于 2023-08-23 17:01:46 发布

处黑

最新推荐文章于 2023-08-23 17:01:46 发布

阅读量324

点赞数

文章标签： python计算文本偏移量

本文链接：https://blog.csdn.net/weixin_36087357/article/details/113536046

版权

本文提供了一种使用Python通过TF-IDF计算文本相似度的代码实现思路，包括读取Excel内容，分词，计算词频，转换为稀疏向量并进行两两比较。

摘要由CSDN通过智能技术生成

---前排提醒：本文不涉及相关原理介绍，仅提供代码设计思路

本人设计的基本框架如下：
1. 读取excel中特定单元格的内容

2. 存储至列表后进行分词

3. 采用TF-IDF计算相似度

以下为代码实现的一种思路：

提取excel内容

需要用到xlrd

N1 = "xxxxxx.xlsx"
import xlrd
goal_list = []
def getexcel():
    rbook = xlrd.open_workbook(N1)
    rbook.sheets()
    rsheet = rbook.sheet_by_index(0)
    for row in rsheet.get_rows():
        reply_column = row[8]
        reply_value = reply_column.value
        if reply_value == 'XXXX':
            continue
        else:
            goal_list.append(reply_value)

将文件地址存储至变量N1中，打开第一个工作簿，选择第8行（