【论文阅读笔记】Myers的O(ND)时间复杂度的高效的diff算法

最新推荐文章于 2022-08-11 13:39:38 发布

灯珑

最新推荐文章于 2022-08-11 13:39:38 发布

阅读量1.6k

点赞数 1

分类专栏： C++ 文章标签：算法 diff 论文复现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34026204/article/details/122129097

版权

前言

之前咱们三个同学做了个Simple-SCM，我负责那个Merge模块，也就是对两个不同分支的代码进行合并。当时为了简便起见，遇到文件冲突的时候，就直接按照文件的更改日期来存储，直接把更改日期较新的那个文件认为是我们要保留的文件版本。但是这样子做是存在很多问题的，因为这样做就无法对不同分支的代码他们各自的特性进行整合，最终保留的只是其中一个分支的代码。因此，加入按行进行比较的diff算法是非常必要的。

然后，本着自力更生的理念，我希望能够自己写出这个代码，然后把它应用到Simple-SCM之中。今年五月份的时候就看到了Google开源的diff-match-patch库，这里面提供了完善的diff功能。一看代码量，三千多行，就把这事往后推了。这个开源库里面讲到了，用的就是Myers的论文，我就想，我能不能自己阅读论文，把它复现出来呢？但是由于时间的缘故，就没去搞。毕竟当时是实训大作业要赶ddl嘛，先把软件做出来再说。

到了最近，我又找到了这个库，然后想起了还没有完成的Merge模块，就想着去把它做出来。于是，我说干就干，还深夜发了一条朋友圈，来立一个Flag。

然后我就，真的，抽空把这个论文给看了。并且把它的基础版本给复现了出来！（论文原文请转到文末）

什么是diff？

diff在软件开发过程中非常常见，最直观的就是在git里面，可以查看两个不同版本的代码的区别。得出的数据包括了：新增的、删除的、修改的、没有改变的。

在Github上查看代码版本之间的差异

上面这张图展现的就是在Github上看到的，展现了两个版本的代码之间的差异。红色的表示这段代码在新版中已经被删除了，绿色的表示是新增的，其中，颜色加深部分则是发生改变的。

并且，左边的旧版本代码有很多种方式来变成右边的新版代码。找到一个最符合人类直观反应的diff，也是一个复杂的问题。

Myers的Diff算法的原理

我们如何判断两份代码文件的差异呢？首先我们要认识到它是字符串，换行只是加了换行符而已。因此，从本质上来说，我们要能够判断两个字符串的差异。

这就回归到了我们熟知的最长公共子序列（LCS）问题了，对于LCS问题，在之前我也学过LCS的算法。之前学的基于DP的算法的时间复杂度是O(MN)，也就是我们所说的N平方复杂度。对于大量的数据而言，之前的算法速度是很慢的。

编辑图

因此，Myers在论文中引入了编辑图(Edit Graph)的概念。也就是将旧字符串放在x轴，新字符串放在y轴。起点是(0,0)，终点是(M,N)。

Edit Graph

<

最低0.47元/天解锁文章

博客等级

码龄9年

102
原创

61
点赞

342
收藏

2599
粉丝

关注

私信

热门文章

分类专栏

DragonOS 10篇
操作系统 11篇
实用小工具 3篇
C++ 44篇
机器学习 1篇
算法与数据结构 51篇
运维 6篇
hexo 1篇
计算机科学概论 4篇
numpy 1篇

最新评论

解决python封装Logging模块后，log位置显示错误的问题
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
视频文件太大？使用FFmpeg来无损压缩它
χ．: 压缩之后为什么时长会变短
使用Rust构建一个kvm用户空间实例
Frank Peng: 大佬的文章很有质量，我最近在研究dragonball-sandbox时发现也是用的rustvmm项目，但是发现没有支持类似于qemu的cpu透传，请教下大佬这种应该如何实现呀
视频文件太大？使用FFmpeg来无损压缩它
所念倒流天际: 我怎么执行这个命令后，文件反而变大了，大了一倍，哈哈
解决python封装Logging模块后，log位置显示错误的问题
Penguin_zlh: 我是用这种方式可行，python版本3.8.5 你需要判断下跳出多少层才能获得正确的文件名称。我的经历可以参考下：在封装的httpRequest中调用Log，Log中又将error封了一层，所以我这个参数设置为4的时候，才返回正确的文件名称。设置为2的时候，还在当前log文件；设置为3的时候，返回Request文件；设置为4满足需求。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。