python文本检索_如何使用Python从.doc文件中检索纯文本?

我找到了解决这个问题的方法。在

我成功地将.doc文件转换为.txt文件,所有特殊字符和编码都转换为.txt格式。代码如下所示。我想您可以(如果需要的话)读取新创建的文本文件,然后将其存储在python程序的变量中。从那里你可以做任何你想做的事情。在import win32com.client

import os

import re

rootdir ='C:\Users\IdaLim\Desktop\docs'

try:

app = win32com.client.Dispatch('Word.Application')

app.Visible = True

for subdir, dirs, files in os.walk(rootdir):

for file in files:

fullpath = os.path.join(*[subdir, file])

if file.endswith(".doc"):

out_name = file.replace("doc", r"txt")

in_file = os.path.abspath(rootdir + "\\" + file)

out_file = os.path.abspath(rootdir + "\\" + out_name)

doc = app.Documents.Open(in_file)

content = doc.Content.Text

print 'Exporting', out_file

doc.SaveAs(out_file, FileFormat=7)

doc.Close()

except Exception, e:

print e

finally:

app.Quit()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值