第一次在CSDN发布文章,初衷是为了记录的同时希望能帮到有需要的人与大家共同学习,不足之处还请大佬们多多指教,感谢~
参考链接有:【python】提取excel中的某一列数据_allan2222的博客-CSDN博客_python 提取某一列
先上代码:
import xlrd
import sys
result=[]#result用来存放关键词
with open('C:/Desktop/化学介质.txt','r',encoding='utf-8') as f:
for line in f:
result.append(list(line.strip('\n').split(',')))
def extract(inpath):
data = xlrd.open_workbook(inpath, encoding_override='utf-8')
table = data.sheets()[0]#选定表
nrows = table.nrows#获取行号
ncols = table.ncols#获取列号
for i in range(0, nrows):#第0行为表头
alldata = table.row_values(i)#循环输出excel表中每一行,即所有数据
name = alldata[0]#取出表中第1列数据,即事故名称
text = alldata[1]#取出表中第2列数据,即事故案例原文
print(name)
for i in range(len(result)):#判断每个text中有没有关键字,如果有输出该关键字
b = str(*result[i])
c = b in text
if c == 1:
print(b)
inpath = '事故.xls'#excel文件所在路径
extract(inpath)
代码讲解:
首先这个代码的目的是为了把事故案例中出现的危化品介质作为关键词找出来。由于事故案例有几百条并且每一条案例原文字数平均都是5k+,危化品数据有一千多条。所以将事故案例存进Excel的某一列中,每个事故案例放在一个单元格中,然后用记事本存放危化品(关键词),每一行只放一个危化品。
一行一行地遍历记事本中的关键词,用result来接收存放数据。(注意txt文件的路径及文本内容中的英文逗号)
python中判断text中是否含有指定字符串的关键字:in