Word文件的OpenXML解析
自Office 2007以来,新推出的.docx文件可以无损转换成OpenXML格式,以便于第三方工具生成、修改Word文件。本文以Python为背景,简单解析OpenXML中的常用元素,主要用作个人备忘。
个人邮箱为qxsoftware@163.com,欢迎来信交流。
本文目前仍在施工中,因疫情影响,完工日期未定QAQ
本文目录:
准备工作
初识OpenXML
获取Word XML
手动将Word文件另存为XML文件
使用python-docx获取OpenXML
Word OpenXML常用结构
整体结构:body、styles、setting等
段落Paragraph结点:
基本格式单位Run结点:
格式Properties结点:与
字体
字号、
看的见的文字Text:
修订版本号rsid
注音系统Ruby:
准备工作
Python解析OpenXML的两个常用库:python-docx与lxml,可通过pip安装,若对两个库不熟悉请参阅以下资料:
使用python-docx读取word文件
lxml学习笔记(含增删改查)
lxml.etree.Element中的.addprevious()与.addnext()
本文举例所用的文本内容,为唐朝诗人张若虚的《春江花月夜》,全文如下:
《春江花月夜》
【唐·张若虚】
春江潮水连海平,海上明月共潮生。
滟滟随波千万里,何处春江无月明?
江流宛转绕芳甸,月照花林皆似霰。
空里流霜不觉飞,汀上白沙看不见。
江天一色无纤尘,皎皎空中孤月轮。
江畔何人初见月?江月何年初照人?
人生代代无穷已,江月年年只相似。
不知江月待何人,但见长江送流水。
白云一片去悠悠,青枫浦上不胜愁。
谁家今夜扁舟子?何处相思明月楼?
可怜楼上月徘徊,应照离人妆镜台。
玉户帘中卷不去&