python读取word文档并做简单的批量文档筛选

python读取word文档并作简单的文档筛选你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会...
摘要由CSDN通过智能技术生成

python读取word文档并做简单的批量文档筛选

最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了python-docx这个库,抱着学习与实践结合的态度,准备记录一下。

(一)python-docx库

  • 查阅官方的英文文档:python-docx文档
    python-docx is a Python library for creating and updating Microsoft Word (.docx) files.
    很直观地可以看出,这个包可以创建和更新以.docx为后缀的 MS word文件,并可以进行相关一系列的操作。
    安装:pip install python-docx (一般来说直接可以安上)
    或:pip install -i http://pypi.douban.com/simple python-docx
    或:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx
    (下面两种为使用镜像安装,最近发现用豆瓣镜像源安装第三方库基本都能安装上,感觉很方便而且速度也快,使用镜像安装需要加上-i,第二个是清华大学的镜像,应用起来也很方便,而且据说比豆瓣的镜像源还要全一些)

  • docx库中的一些基本操作

  1. 打开一个已有的文档
from docx import Document
document = Document(“test.docx”) 
#打开已有的test.docx文档(路径可以自己制定 XX:/LL/MM.docx)并创建对象
document.save('test.docx') #名字不同另存为 名字相同覆盖
  1. 创建一个新的文档
#创建一个新的文档对象,保存为test.docx
from docx import Document
document = Document() 
document.save('test.docx')
  1. 读取word文档内容(非表格表格
from docx import *
file = Document('test.docx')
for para in file.paragraphs:        # 遍历文档中的每个段落
    print( para.text )              # 输出每个段落的内容

for tb in file.tables:              # 遍历文档中的每个表格
    for row in tb.rows:             # 遍历每个表格中的行
        for cell in row.cells:      # 遍历一行的所有单元格
            print( cell.text )      # 输出单元格的内容
print(doc.tables[0].cell(5,5).text) 
  • 0
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值