Python 从不规则文本中提取有效信息

背景:从一个混有文字和多个表格的word文档里,提取表格中有效信息

代码:

from docx import Document
import numpy as np
import pandas as pd

#读取文件
doc = Document("文件名.docx")

#读取表格
tables = doc.tables
#print(len(tables))

rlt = []
flag = 0
for t in tables: #每一个表格
    rows = t.rows
    for r in rows: #每一行
        cols = r.cells
        for c in cols: #每一个单元格
            if flag != 0:
                rlt.append(c.text)
                flag = 0
                continue
            if c.text == "不动产所有权人" or c.text == "不动产权属证明" or c.text == "项目名称" or  c.text == "项目地址":
                flag = 1
nums = len(rlt)
rlt = np.array(rlt).reshape((nums//4,4))
#print(rlt)            
df = pd.DataFrame(rlt,columns= ["不动产所有权人" ,"不动产权属证明" ,"项目名称","项目地址"])
#print(df)
df.to_excel('rlt.xlsx')

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值