Python实现简单的excel对比工具

最近有小伙伴说需要一个工具,用来对比2个excel表的差异,直接标记出来有差异的行。

代码倒还挺简单的,为了方便小白使用,我给它打包成exe文件,点击执行即可输出结果。

1、先说一下怎么用,后面上代码

链接:https://pan.baidu.com/s/1oNEeIDOnw1Grw2MOdJrwUQ
提取码:w29l

先到网盘链接,下载文件:
如果不需要源代码,直接下载xlsx_compare.rar即可。

在这里插入图片描述
解压后打开:
这里面2个xlsx文件是我用来测试的文件,可以直接换成你自己的,必须是2个,不要放其他文件。

划重点:你的2个excel文件必须是xlsx格式的文件,且对比的内容放在Sheet1。
在这里插入图片描述
点击exe文件,结果如下:
在这里插入图片描述
会输出3份文件,第一个error_info.txt,就是执行过程中有报错的信息会写入到这文件里,运行正常的话里面写的是。
在这里插入图片描述
如果出现异常,例如你的2个对比文件忘记放进去了,error_info.txt就是这样的
在这里插入图片描述
另外2个new结尾的文件,就是对比的结果了,打开看看。
在这里插入图片描述
D列的数据因为长度超长,把它拉开就能看到内容了。
对比发现不一致的话,会在最后一列Compare Result标记
在这里插入图片描述
像这样的话,说明2个文件的第5、6、7行不一致,第8行是因为test1.xlsx没有第8行数据,而test2.xlsx有,因此也标记出来。

这样我们通过excel的筛选器过滤一下,就能得到2个文件不一致的所有行了
在这里插入图片描述

2、代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# date: 2021/4/17
# filename: xlsx_compare
# author: kplin

import pandas as pd
import os


def my_log(info):
    try:
        with open('error_info.txt', 'w+') as f:
            f.write(info)
            f.close()
    except Exception as e:
        print('写入错误日志时发生以下错误:\n%s'%e)


def get_file():
    try:
        # 获取当前文件夹下的2个文件
        dir_path = os.getcwd()
        files = os.listdir(dir_path)
        ret = []
        for i in files:
            if i.endswith('.xlsx') and not i.endswith('_new.xlsx'):
                ret.append(i)
            if i.endswith('.xlsx') and not i.endswith('_new.xlsx') and '~$' in i:
                info ='请关闭文件%s'%i
                my_log(info)
                return None
        if len(ret) == 0:
            info = '找不到待检测文件,请将2个xlsx文件放入此文件夹'
            my_log(info)
            return None
        # print(ret)
        return ret[0], ret[1]
    except Exception as e:
        my_log(str(e))



def main(file1, file2):
    try:
        # 1、获取原文件路径和名称,先准备即将生成的新文件名和文件路径
        fname1, ext = os.path.splitext(os.path.basename(file1))
        new_file1 = file1.replace(fname1, fname1 + '_new')

        fname2, ext = os.path.splitext(os.path.basename(file2))
        new_file2 = file2.replace(fname2, fname2 + '_new')

        # 2、读取文件
        df1 = pd.read_excel(file1)
        df2 = pd.read_excel(file2)

        length = len(df1) if len(df1) >= len(df2) else len(df2)


        # 两个数据块行数不一致,补成一致的
        if len(df1) - len(df2) > 0:
            # 获取DF1的列名
            d = {}
            for i in df2.columns:
                d[i] = ['' for x in range(len(df1) - len(df2))]
            concat_df = pd.DataFrame(d)
            df2 = pd.concat([df2, concat_df])

        if len(df2) - len(df1) > 0:
            d = {}
            for i in df1.columns:
                d[i] = ['' for x in range(len(df2) - len(df1))]
            concat_df = pd.DataFrame(d)
            df1 = pd.concat([df1, concat_df])


        dis_index = []

        for i in range(len(df1)):
            ret = df1.iloc[i, :]==df2.iloc[i, :]
            if False in ret.tolist():
                dis_index.append(i)

        dis_list = ['' for i in range(length)]
        for i in dis_index:
            dis_list[i] = '不一致'

        df1['Compare Result'] = dis_list
        df2['Compare Result'] = dis_list

        df1.to_excel(new_file1, index=False)
        df2.to_excel(new_file2, index=False)
        my_log('校验成功,本次对比文件为:%s%s 和 %s%s'%(fname1, ext, fname2, ext))
        print('校验完成,请查看新文件')
    except Exception as e:
        print('出现未知错误,请查看error_info.txt')
        my_log(str(e))

if __name__ == '__main__':
    if not get_file():
        print('读取文件时发生错误,请查看error_info.txt')
    else:
        file1, file2 = get_file()
        main(file1, file2)

总共有3个函数:

1、my_log函数用来写入日志。

2、get_file函数用来获取当前路径下所有后缀名为.xlsx的文件,会排除掉_new.xlsx文件,并且如果当前文件夹下有打开的excel文件,会自动结束运行,提示关闭当前文件夹下已被打开的excel文件。

3、main函数用来处理比对,并输出结果:
这里主要使用pandas读取数据并逐行对比,如果不一致,会记录下差异的位置,当检查完所有行后,给数据块加上一列Compare Result,把差异的行做一个标记,最后写入生成2个新文件。

依赖包都在requirements.txt里:
pandas 1.1.4
openpyxl 3.0.7
xlrd 1.2.0

可以直接pip install -r requirements.txt,直接下载安装依赖包。

逻辑很简单,但没有经过充分测试,可能遇到某些特殊情况会有其他报错,如果有的话,给我留言说明是什么情况导致的报错,有时间就改进一下。

  • 30
    点赞
  • 177
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
武汉派先科技有限公司推出的<>专业版是市场上最为强大便捷的Excel比较工具。它为工作中经常需要进行数据比较的用户提供了完美的解决方案。无论你的数据是存放在Excel文件,还是存放在文本文件,或者存放在Access、Microsoft SQL数据库,<>专业版都可以提供快速比较,大量节省您的时间和精力,将您从枯燥冗长的数据海洋中解放出来,从而让您的工作变得轻松愉快。 <>专业版不同于其它同类产品。其它同类产品在比较时候,要么是一个插件,要么需要显式地在前台运行Excel程序。而百分百比较Excel完全独立运行,与后台的Excel程序协同完成工作,不需要来回切换程序。 本产品的主要特性点: 1、 支持对任意Excel内容的比较 • 比较整个工作簿(workbook),并且可以对工作簿中的每个工作表进行单独的比较设置 • 比较整个工作表(worksheet),并允许多种比较设置 • 比较工作表中的已命名区域(named range),并允许多种比较设置 • 比较工作表中用户运行时自由选定的任何区域(range),并允许多种比较设置 2、 支持对远程数据的比较 • 支持从文本文件(Text/CSV)中导入数据比较 • 支持从Access数据库中导入数据比较 • 支持从微软SQL数据库中导入数据比较 3、支持灵活的多种比较设置 • 支持按第一行名字配对比较 • 支持按Excel所在列位置配对比较 • 支持按范围(range)内的单元坐标配对比较 (同一坐标的单元配对比较) • 支持用户自由定义的列映射配对比较 • 支持值和公式的比较 • 支持大小写区分 • 所有的比较设置均可保存供下次调用 4、自动生成XML格式的比较结果报表 • XML格式保留对差异单元的加亮显示 • XML格式使您的生意伙伴对比较结果的自动再处理(程序处理)成为可能 • XML格式允许没有安装微软Excel的生意伙伴用互联网浏览器进行显示比对 • XML格式也允许你在Excel中对比较结果进行显式和分析 5、原始Excel文件和比较结果显示在同一个程序窗口中,无需切换 6、可一键快速定位比较结果对应的原始Excel单元 7、独特的比较算法,即使大量的数据也可快速比较 8、友好的用户界面,让你的操作轻松自如.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值