Python 从不规则文本中提取有效信息

qq_43575569

已于 2023-06-21 17:45:53 修改

阅读量411

点赞数

文章标签： python 开发语言

于 2023-06-21 17:42:52 首次发布

本文链接：https://blog.csdn.net/qq_43575569/article/details/131332142

版权

背景：从一个混有文字和多个表格的word文档里，提取表格中有效信息

代码：

from docx import Document
import numpy as np
import pandas as pd

#读取文件
doc = Document("文件名.docx")

#读取表格
tables = doc.tables
#print(len(tables))

rlt = []
flag = 0
for t in tables: #每一个表格
    rows = t.rows
    for r in rows: #每一行
        cols = r.cells
        for c in cols: #每一个单元格
            if flag != 0:
                rlt.append(c.text)
                flag = 0
                continue
            if c.text == "不动产所有权人" or c.text == "不动产权属证明" or c.text == "项目名称" or  c.text == "项目地址":
                flag = 1
nums = len(rlt)
rlt = np.array(rlt).reshape((nums//4,4))
#print(rlt)            
df = pd.DataFrame(rlt,columns= ["不动产所有权人" ,"不动产权属证明" ,"项目名称","项目地址"])
#print(df)
df.to_excel('rlt.xlsx')