把Word文本中含有特定关键词的句子批量导入excel表格

#本文是将名为27.docx的word文档分句、查找含china关键词的句子、去掉句子标点,然后将相关句子输入名为27okst的excel文档,然后为词语共现分析做准备。大家可以根据自己需求,更改相应的文档名称即可。
#如果你没有安装相应程序包,需要先pip进行安装。
#参考了前辈的大量文章,欢迎大家指正批评。

import nltk
import readDocx
import openpyxl
import re

text=readDocx.getText(‘27.docx’).lower()
sens=nltk.sent_tokenize(text)
sens_china=[]
for sentence in sens:
if ‘china’ in sentence:
sens_china.append(sentence)

wb=openpyxl.Workbook()
sheet=wb[‘Sheet’]
for i in range(len(sens_china)):
sheet[‘A’+str(i+1)]=sens_china[i]

for i in range(len(sens_china)):
text=sheet[‘A’+str(i+1)].value
text_list=re.sub("[^a-zA-Z]"," “,text).split()
english_punctuations = [’,’, ‘.’, ‘:’, ‘;’, ‘?’, ‘(’, ‘)’, ‘[’, ‘]’, ‘&’, ‘!’, ‘*’, ‘@’, ‘#’, ‘$’, ‘%’,’%’,’–’,”’’",’:”``”’]
text_list = [word for word in text_list if word not in english_punctuations]
text1=’ '.join(text_list)
sheet[‘A’+str(i+1)]=str(text1)

wb.save(‘27okst.xlsx’)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值