续：python 基于-docx库解决docx自动编号识别问题的一种参考方案（附详解、附代码）

cr3109585

已于 2024-06-03 19:14:14 修改

阅读量3.3k

点赞数 51

文章标签： python

于 2024-05-03 00:46:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cr3109585/article/details/138403698

版权

本文详细介绍了如何通过Python的fromdocx库解析MicrosoftWord.docx文档中的自动编号信息，包括编号样式存储在numbering.xml中的结构，以及编号在document.xml中出现的位置。作者展示了如何获取numId、abstractNumId、start等关键信息，并提供了查找和替换自动编号格式的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2024.5.31更新2点：1、发现有些中文自动编号不是叫chineseCounting，后面还带了thousand什么的，所以 if num_fmt == "chineseCounting" 要改为 if "chineseCounting" in num_fmt。2、之前对自动编号假设只有3级，虽然看起来数字是连续的，但实际上每个都可能是一组新的自动编号的第一个，对此，修正后对应代码应为：

start_lv123 = [i*0 for i in range(len(List_of_dict))] #原本是start_lv123=[0,0,0]

for k in range(len(List_of_dict)):
if "start" in List_of_dict[k].keys():
start_lv123[k]=int(List_of_dict[k]["start"].split('\'')[0])

我的上一次文章大概说明了基于docx库解决自动编号识别问题的原理和结论（参见上一篇文章http://t.csdnimg.cn/gozU9），在这篇文章进一步说明一些细节问题，最后附上代码。

我这里有一个text.docx文档（见下图），带有2级自动编号：一、二、以及1.2. 。以此为例说明。

一、记载“文档自动编号样式信息”的位置在哪里？

自动编号的种类、样式等信息储存在numbering.xml当中（每个docx都是一个zip，手动改变后缀名后可打开压缩包，找到/word/numbering.xml这个文件）。最上层的节点叫numbering,下面与4个节点，分别是2个num和2个abstractNum。每个num节点记录了某个numId值与某个abstractNumId 值的对应关系。节点abstractNum记录了每一个abstractNumId 值对应的自动编号长成什么样、起始序号是几、序号是中文还是数字等等信息。

最低0.47元/天解锁文章

博客等级

码龄14年

3
原创

95
点赞

79
收藏

64
粉丝

关注

私信

热门文章

最新评论

续：python 基于-docx库解决docx自动编号识别问题的一种参考方案（附详解、附代码）
cr3109585: 2024.5.31更新2点：1、发现有些中文自动编号不是叫chineseCounting，后面还带了thousand什么的，所以 if num_fmt == "chineseCounting" 要改为 if "chineseCounting" in num_fmt。2、之前对自动编号假设只有3级，虽然看起来数字是连续的，但实际上每个都可能是一组新的自动编号的第一个，对此，修正后对应代码应为：start_lv123 = [i*0 for i in range(len(List_of_dict))] #原本是start_lv123=[0,0,0] for k in range(len(List_of_dict)): if "start" in List_of_dict[k].keys(): start_lv123[k]=int(List_of_dict[k]["start"].split('\'')[0])
续：python 基于-docx库解决docx自动编号识别问题的一种参考方案（附详解、附代码）
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
续：python 基于-docx库解决docx自动编号识别问题的一种参考方案（附详解、附代码）
CSDN-Ada助手: 非常感谢您分享这篇关于解决docx自动编号识别问题的参考方案！您的文章内容详实，让读者能够清晰地了解到numId与abstractNumId的关系，以及自动编号发生位置的信息存放位置。希望您能继续分享更多关于Python库的技巧和经验，这对于广大读者来说都是非常有帮助的。另外，在处理docx文件时，您可能会遇到需要修改文本样式、插入表格或者处理图片等需求。这时候，可以尝试学习python-docx库的其他功能，比如如何操作文本内容的格式、如何处理表格中的数据等，这些扩展知识将有助于您在实际应用中更加灵活地处理文档。希望您能够继续深入学习和分享，不断提升自己在Python领域的技能水平！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python 基于-docx库解决docx自动编号识别问题的一种参考方案
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python 基于-docx库解决docx自动编号识别问题的一种参考方案
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。