使用 python-docx 和 difflib 对比 Word 文档

最新推荐文章于 2025-10-18 16:49:13 发布

原创最新推荐文章于 2025-10-18 16:49:13 发布 · 288 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

使用 python-docx 和 difflib 对比 Word 文档

以下是一个 Python 脚本示例，用于比较两个 Word 文档的文本内容差异：

from docx import Document
import difflib

def read_word_file(file_path):
    doc = Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return '\n'.join(full_text)

def compare_word_files(file1, file2):
    text1 = read_word_file(file1)
    text2 = read_word_file(file2)
    
    d = difflib.Differ()
    diff = list(d.compare(text1.splitlines(), text2.splitlines()))
    
    print('\n'.join(diff))

# 使用示例
compare_word_files('document1.docx', 'document2.docx')

安装依赖库

运行前需要安装 python-docx 和 difflib（后者是 Python 标准库）：

pip install python-docx

输出结果说明

以 '-' 开头的行表示第一个文档独有的内容
以 '+' 开头的行表示第二个文档独有的内容
以空格开头的行表示两个文档共有的内容

处理复杂格式差异

如果需要比较格式差异（如字体、颜色等），可以使用更专业的库如 python-docx-compare：

from docxcompose.composer import Composer
from docx import Document

doc1 = Document("document1.docx")
doc2 = Document("document2.docx")

composer = Composer(doc1)
composer.append(doc2)
composer.save("compared.docx")

可视化差异输出

对于更直观的差异展示，可以生成 HTML 格式的对比结果：

diff_html = difflib.HtmlDiff().make_file(
    text1.splitlines(), 
    text2.splitlines(),
    fromdesc='Document 1',
    todesc='Document 2'
)
with open('diff.html', 'w') as f:
    f.write(diff_html)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

std86021

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Python办公自动化案例：对比两个word文档并找出不同

衍生星球的博客

09-12

448

要比较两个Word文档并找出它们之间的差异，你可以使用Python的几个库来实现这一功能。这里有一个简单的步骤和代码示例，使用库来读取Word文档，并使用difflib库来比较文档内容。

【Python-办公自动化】1秒比较两个WORD文档之间的差异

2202_76035290的博客

08-15

371

欢迎来到"花花 Show Python"，一名热爱编程和分享知识的技术博主。在这里，我将与您一同探索Python的奥秘，分享编程技巧、项目实践和学习心得。无论您是编程新手还是资深开发者，都能在这里找到有价值的信息和灵感。我热衷于将复杂的技术概念以简单易懂的方式呈现给大家，让每个人都能享受到编程的乐趣。我相信，通过不断的学习和实践，我们都能够成为更好的开发者。如果您喜欢我的内容，别忘了点击关注哦！这样您就可以第一时间获取我的更新和分享。您的支持是我不断前进的动力。

参与评论您还未登录，请先登录后发表或查看评论

python-docx -- 对比两个表格的行数据

weixin_45228198的博客

10-22

433

基于笛卡尔积对比表格的行数；文本相似度；numpy二维数组；

python docx 文本比对

weixin_35569211的博客

07-28

206

python实战:如何对比两个word文档,并且显示差异内容

Ven%的博客

05-20

324

在实际开发中，对比两个Word文档并标记差异部分是一个常见需求。本文介绍了如何使用Python实现这一功能，通过pandoc将文档转换为文本，使用difflib进行差异比较，并结合jieba进行中文分词，最终生成带有修订标记的Word文档。新增部分用蓝色加下划线标记，删除部分用红色加删除线标记。生成文档后，可以通过WPS或Office的清除格式功能去除标记，确保文档的最终一致性。

【Word】用 Python 轻松实现 Word 文档对比并生成可视化 HTML 报告

采菊东篱下，Python满乾坤！

08-28

943

技术作用读取.docx文件内容difflib计算文本差异（增删改）webbrowser自动打开浏览器预览结果osdatetime文件路径处理与时间戳记录原生 HTML + CSS生成结构清晰、样式现代化的报告页面。

python docx 合并文档图片_最全总结 | 聊聊 Python 办公自动化之 Word（下）

weixin_39935903的博客

11-16

289

聊聊 Python 数据处理全家桶(Memca 篇)点击上方“AirPython”，选择“加为星标”第一时间关注 Python 技术干货！1. 前言关于 Word 文档的读写，前面两篇文章分别进行了一次全面的总结最全总结 | 聊聊 Python 办公自动化之 Word(上)最全总结 | 聊聊 Python 办公自动化之 Word(中)本篇文章作为一个办公自动化 Word 篇的一个补充，写...

如何用python进行word文档的处理【附源码】

helloshili2011的博客

04-02

2025

如何用python进行word文档处理，今天就谈谈其中常见的几种情况的处理，比如word文档之间的相似度比较、提取word文档之间的重叠词和分歧词、word文档的结构分析、生成word文档摘要、提取word文档的摘要信息等五种情况。

使用 difflib 比对 Word

star565的博客

12-05

639

注意，此方法比对，不包括Word表格中数据方法一：代码如下： import docx import codecs from difflib import HtmlDiff file1 = docx.Document(r'\\Mac\Home\Desktop\project\天华\test1.docx') file2 = docx.Document(r'\\Mac\Home\Desktop...

Python-Docx文档比较：追踪变更，合并编辑的高级技术（实用型、紧迫型）

![Python-Docx文档比较：追踪变更，合并编辑的高级技术（实用型、紧迫型）]...Python-Docx库提供了一种便捷的方法，来处理Microsoft Word文档(.docx)。在本章，我们将探讨

python对比两个docx(doc)文件是否相同(linux/windows)

分享身边生活经验blog

06-25

1879

起因被安排了个活，让对比一下两个文件夹内的同名doc文件是否相同，也不知道意义是啥，一百来个文件，一个一个打开太麻烦，而且电脑都卡死机了，因此，通过度娘整理了一些资料，用python实现了对比功能。注：可以输出两个内容不同的段落，但不会具体定位到哪一句话，所以需要自己仔细看看哪一句话有问题。比较适合粗略的文件是否相同对比。文章没什么创新，只是做了一个总结，网上东西杂七杂八的，这里记录以下个人测试可用的方法，以免后续有人继续踩坑流程 doc转docx 如果要对比的文件本身就是docx

python map reduce filter 函数返回值为函数匿名函数装饰器偏函数

周周的博客

10-13

1762

第5次调用，it = filter(_not_divisible(5),filter(_not_divisible(7),filter(_not_divisible(3), _odd_iter())))第四次调用，it = filter(_not_divisible(5),filter(_not_divisible(3), _odd_iter()))第三次调用，it = filter(_not_divisible(3), _odd_iter())调用next(it)，返回5，运行到yield 5语句停下。

《天机学堂》day09.优惠券管理相关接口_完整代码【简单易懂注释版】

2402_84971234的博客

10-16

1984

本文介绍了优惠券管理系统的设计与实现，包括优惠券的增删改查、发放、兑换等功能模块。系统采用分层架构，包含Controller、Service、Mapper层，实现优惠券的新增、分页查询、编辑、删除等基础操作。在发放功能中，通过异步生成兑换码提高性能，并设计兑换码加密算法确保安全性。针对并发问题，采用乐观锁解决超卖、悲观锁防止重复领取、AOP代理处理事务失效。系统还实现了定时任务自动开始/结束发放，支持分片处理提升效率。兑换功能结合Redis位图校验兑换状态，MySQL存储兑换记录，确保数据一致性。

基于 PyQt5 的多算法视频关键帧提取工具

陈增林

10-16

1578

本文介绍了一个基于PyQt5的多算法视频关键帧提取工具，该工具支持三种主流算法并通过图形界面提供便捷操作。关键帧提取技术能有效代表视频内容变化，适用于预览、分析和剪辑等场景。工具内置局部最大值算法（检测亮度差异）、帧差统计算法（自适应阈值）和直方图聚类算法（内容相似性分析），各有特点以适应不同需求。GUI设计支持多任务并行处理、算法灵活切换和友好交互体验，输出结果包含关键帧图片和元数据文件。该工具既可作为实用程序，也是理解计算机视觉中变化检测和内容表征原理的实验平台。

「机器学习笔记13」无监督学习全面解析：从聚类算法到Python实战

weixin_38291577的博客

10-13

3210

想象你面前有一大堆没有标签的水果，你的任务是根据它们的特征（颜色、形状、大小）自动分成几组。这个过程就是无监督学习的核心思想——让机器在没有明确指导（标签）的情况下，自主发现数据中的内在结构和规律。无监督学习让机器具备了自主探索数据世界的能力。从层次聚类构建的数据家族树，到K-means的高效划分，再到K-medoids的稳健中心点选择，每种方法都有其独特的价值和适用场景。无监督学习的核心是发现数据内在结构聚类质量取决于相似度度量和算法选择K值选择需要结合业务理解和技术指标。

RL4CO代码学习笔记01：

weixin_44253237的博客

10-14

2495

EDA & Graph 针对离散事件调度 (MDPP) 使用 AM+REINFORCE，减小 batch/数据规模并把学习率调高到 1e-4、weight_decay=1e-3。将 model 切换为 rl4co.models.A2C，复用 AM 策略，但拆分 actor/critic 优化器并沿用小样本设定。改用 Step-wise PPO 设置 (clip_range/ppo_epochs/mini_batch)，保持 10 个 epoch 的快速实验。为图匹配任务加载

十个Pandas高效数据处理与分析应用实例

最新发布

qq_38190562的博客

10-18

474

【代码】十个Pandas高效数据处理与分析应用实例。

python基于web的汽车班车车票管理系统/火车票预订系统/高铁预定系统可在线选座

Q_Q511008285的博客

10-17

958

随着网络不断的普及发展，订票管理系统依靠网络技术的支持得到了快速的发展，首先要从用户的实际需求出发，通过了解用户的需求开发出具有针对性的首页、个人中心、用户管理、车型信息管理、票务信息管理、购票订单管理、选座管理、系统管理等功能，利用目前网络给用户带来的方便快捷这一特点对系统进行调整，设计的系统让用户的使用起来更加方便，本系统的主要目的就是给用户带来快捷与高效、安全，用户只要在家中就可以进行操作。

CrewAI 全面详解：多智能体协作框架从入门到实战

2301_78209919的博客

10-15

1055

CrewAI是一款基于LangChain构建的开源多智能体编排框架，旨在通过模拟现实团队协作模式，协调多个AI智能体分工合作，高效完成内容创作、市场分析等复杂任务。其兼容主流大语言模型（如OpenAI、Google Gemini等）及各类工具（如网络搜索、PDF解析），可让开发者快速搭建多智能体系统。核心优势体现在角色驱动设计（智能体有明确角色定位）、智能协作机制（自主委派任务与共享信息）、灵活工具集成、生产级特性（含内存管理、可观测性等）、多样化流程编排（支持顺序、并行等模式）

word文档查重 python

02-19

### 如何使用Python实现Word文档查重为了实现Word文档的查重功能，可以利用多种Python库和技术组合来达成目标。以下是几种常用方法及其对应的库。 #### 方法一：使用`difflib`和`python-docx` 这种方法适用于简单的文本内容比较。通过读取两个Word文件中的纯文本数据，并应用内置的`difflib`模块来进行字符串级别的差异分析[^1]。 ```python from docx import Document import difflib def read_docx(file_path): document = Document(file_path) full_text = [] for para in document.paragraphs: full_text.append(para.text) return '\n'.join(full_text) text1 = read_docx('document1.docx') text2 = read_docx('document2.docx') differ = difflib.Differ() diff_result = list(differ.compare(text1.splitlines(), text2.splitlines())) print('\n'.join(diff_result)) ``` 这段代码展示了如何加载两个`.docx`格式的文件，提取其中的文字内容作为字符串处理对象，最后调用`Differ().compare()`函数计算两份文本间的区别。 #### 方法二：基于GUI界面的应用程序——PyQt集成方案对于更复杂的需求，比如提供图形化用户接口让用户方便操作，则可以选择构建一个桌面应用程序。这里推荐使用`PyQt`框架配合其他必要的组件一起工作[^2]。虽然具体的实现细节会更加繁琐一些，但是官方示例和其他开源项目提供了很好的起点。例如可以从GitHub上找到现成的例子学习借鉴[^5]。 #### 方法三：借助自然语言处理技术提高准确性当涉及到深层次的内容相似度评估时，仅依靠字符匹配往往不够精确。此时引入NLP领域内的算法能够显著提升效果。特别是像Gensim这样的强大工具包可以帮助建立词袋模型或其他形式的主题空间表示法，从而更好地理解语义层面的一致性[^4]。 ```python from gensim import corpora, models, similarities documents = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time"] texts = [[word for word in document.lower().split()] for document in documents] dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] tfidf = models.TfidfModel(corpus) index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary)) query = "computer human interface" query_bow = dictionary.doc2bow(query.lower().split()) similarity_scores = index[tfidf[query_bow]] for score in similarity_scores: print(score) ``` 上述脚本说明了怎样创建TF-IDF加权矩阵，并据此衡量查询串与其他已知样本之间的关联程度。这同样适合用来判断不同版本之间是否存在抄袭嫌疑。