![2cec8eb33388bbc0f8243e4a8e65c658.png](https://img-blog.csdnimg.cn/img_convert/2cec8eb33388bbc0f8243e4a8e65c658.png)
在企查查查询企业信息的时候,得到了一些word文件,里面有些控股企业的数据放在表格里,需要我们将其提取出来。
![c6cc296696e79726588b5a5e4c2a7a84.png](https://img-blog.csdnimg.cn/img_convert/c6cc296696e79726588b5a5e4c2a7a84.png)
word文件看起来很复杂,不方便进行结构化。实际上,一个word文档中大概有这么几种类型的内容:paragraph(段落),table(表格),character(字符)。我现在要解析的word文档中,基本都是段落和表格,本文主要来讲一下如何从word中解析出表格,并将表格信息进行结构化。
要想使用python解析word文件,我们可以使用包docx,首先我们需要安装它。
pip install python-docx
安装完成后,我们需要读取word文件,代码大致如下:
import