---前排提醒:本文不涉及相关原理介绍,仅提供代码设计思路
本人设计的基本框架如下:
1. 读取excel中特定单元格的内容
2. 存储至列表后进行分词
3. 采用TF-IDF计算相似度
以下为代码实现的一种思路:
- 提取excel内容
需要用到xlrd
N1 = "xxxxxx.xlsx"
import xlrd
goal_list = []
def getexcel():
rbook = xlrd.open_workbook(N1)
rbook.sheets()
rsheet = rbook.sheet_by_index(0)
for row in rsheet.get_rows():
reply_column = row[8]
reply_value = reply_column.value
if reply_value == 'XXXX':
continue
else:
goal_list.append(reply_value)
将文件地址存储至变量N1中,打开第一个工作簿,选择第8行(