我试图从docx文件中提取页面和页眉数据。这个文件有几百页,每一页都有一个表和一个页眉。标题包含需要与每个表配对的相关信息。我能够提取头和表数据,只是不能可靠地将它们配对在一起。在
使用win32com这就是我目前所掌握的# getting the table page number
app = Dispatch("Word.Application")
doc = app.Documents.Open(filename)
table_1_page = doc.Tables(1).Range.Information(3) # 3 == wdActiveEndPageNumber
出现此问题是因为标题TextFrames和在多个页面上重复,因此当我调用:
^{pr2}$
我得到一个文本框出现的页面。页面是选择似乎有些武断,有时它的第一个其他的它的最后一个,但它是不可预测的。在
我花了一点时间阅读对象模型here。最终,如果不重新设计轮子就可以捕获每页显示的所有项目。在
根据要求编辑10/25/16,这里是一些最低的工作代码**# filename docx_parser.py
import pythoncom
class OpenDoc(object):
def __init__(self, docx_path):
import win32com.client as win32
self.path = docx_path
self.word = win32.Dispatch("Word.Application")
self.word.Visible = 0
self.word.Documents.