python计算文本偏移量_基于TF-IDF方法计算文本相似度的python实现代码

本文提供了一种使用Python通过TF-IDF计算文本相似度的代码实现思路,包括读取Excel内容,分词,计算词频,转换为稀疏向量并进行两两比较。
摘要由CSDN通过智能技术生成

df923da5201ac2551faa6723289fd4c0.png

---前排提醒:本文不涉及相关原理介绍,仅提供代码设计思路

本人设计的基本框架如下:
1. 读取excel中特定单元格的内容

2. 存储至列表后进行分词

3. 采用TF-IDF计算相似度

以下为代码实现的一种思路:


  1. 提取excel内容

需要用到xlrd

N1 = "xxxxxx.xlsx"
import xlrd
goal_list = []
def getexcel():
    rbook = xlrd.open_workbook(N1)
    rbook.sheets()
    rsheet = rbook.sheet_by_index(0)
    for row in rsheet.get_rows():
        reply_column = row[8]
        reply_value = reply_column.value
        if reply_value == 'XXXX':
            continue
        else:
            goal_list.append(reply_value)

将文件地址存储至变量N1中,打开第一个工作簿,选择第8行(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值