python使用pip安装openxml_Word文件的OpenXML解析(以Python3为例)

本文介绍了如何使用Python的python-docx库解析OpenXML,以.docx文件为例,详细讲解了从手动将Word文件另存为XML到使用python-docx读取XML的过程。此外,文章探讨了OpenXML的基本结构,包括段落、Run结点、字体和字号等,并提供了代码示例。
摘要由CSDN通过智能技术生成

Word文件的OpenXML解析

自Office 2007以来,新推出的.docx文件可以无损转换成OpenXML格式,以便于第三方工具生成、修改Word文件。本文以Python为背景,简单解析OpenXML中的常用元素,主要用作个人备忘。

个人邮箱为qxsoftware@163.com,欢迎来信交流。

本文目前仍在施工中,因疫情影响,完工日期未定QAQ

本文目录:

准备工作

初识OpenXML

获取Word XML

手动将Word文件另存为XML文件

使用python-docx获取OpenXML

Word OpenXML常用结构

整体结构:body、styles、setting等

段落Paragraph结点:

基本格式单位Run结点:

格式Properties结点:与

字体

字号、

看的见的文字Text:

修订版本号rsid

注音系统Ruby:

准备工作

Python解析OpenXML的两个常用库:python-docx与lxml,可通过pip安装,若对两个库不熟悉请参阅以下资料:

使用python-docx读取word文件

lxml学习笔记(含增删改查)

lxml.etree.Element中的.addprevious()与.addnext()

本文举例所用的文本内容,为唐朝诗人张若虚的《春江花月夜》,全文如下:

《春江花月夜》

【唐·张若虚】

春江潮水连海平,海上明月共潮生。

滟滟随波千万里,何处春江无月明?

江流宛转绕芳甸,月照花林皆似霰。

空里流霜不觉飞,汀上白沙看不见。

江天一色无纤尘,皎皎空中孤月轮。

江畔何人初见月?江月何年初照人?

人生代代无穷已,江月年年只相似。

不知江月待何人,但见长江送流水。

白云一片去悠悠,青枫浦上不胜愁。

谁家今夜扁舟子?何处相思明月楼?

可怜楼上月徘徊,应照离人妆镜台。

玉户帘中卷不去&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值