python比较两个文本文件的内容是否相等_python比较两个目录的文件是否相同

5dc3b5c1021a0350.jpg

有时候我们要对比两份配置文件是不是一样,或者比较两个文本是否异样,可以使用linux命令行工具diff a_file b_file,但是输出的结果读起来不是很友好。这时候使用python的标准库difflib就能满足我们的需求。

下面这个脚本使用了difflib和argparse,argparse用于解析我们给此脚本传入的两个参数(即两份待比较的文件),由difflib执行比较,比较的结果放到了一个html里面,只要找个浏览器打开此html文件,就能直观地看到比较结果,两份文件有差异的地方会高亮显示出来。

以python2.7为例,compare_two_files.py程序正文:#!/bin/env python

# -*- coding: utf-8 -*-

import difflib

import sys

import argparse

# 读取建表语句或配置文件

def read_file(file_name):

try:

file_desc = open(file_name, 'r')

# 读取后按行分割

text = file_desc.read().splitlines()

file_desc.close()

return text

except IOError as error:

print 'Read input file Error: {0}'.format(error)

sys.exit()

# 比较两个文件并把结果生成一份html文本

def compare_file(file1, file2):

if file1 == "" or file2 == "":

print '文件路径不能为空:第一个文件的路径:{0}, 第二个文件的路径:{1} .'.format(file1, file2)

sys.exit()

else:

print "正在比较文件{0} 和 {1}".format(file1, file2)

text1_lines = read_file(file1)

text2_lines = read_file(file2)

diff = difflib.HtmlDiff() # 创建HtmlDiff 对象

result = diff.make_file(text1_lines, text2_lines) # 通过make_file 方法输出 html 格式的对比结果

# 将结果写入到result_comparation.html文件中

try:

with open('result_comparation.html', 'w') as result_file:

result_file.write(result)

print "0==}==========> Successfully Finished\n"

except IOError as error:

print '写入html文件错误:{0}'.format(error)

if __name__ == "__main__":

# To define two arguments should be passed in, and usage: -f1 fname1 -f2 fname2

my_parser = argparse.ArgumentParser(description="传入两个文件参数")

my_parser.add_argument('-f1', action='store', dest='fname1', required=True)

my_parser.add_argument('-f2', action='store', dest='fname2', required=True)

# retrieve all input arguments

given_args = my_parser.parse_args()

file1 = given_args.fname1

file2 = given_args.fname2

compare_file(file1, file2)

【待比较的文件】

两份文件分别是old_ddl_file和new_ddl_file,内容分别是:

old_ddl_file文件内容CREATE EXTERNAL TABLE raw_tags(

p0 string COMMENT ‘uid’,

p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL’,

p4 string COMMENT ‘e.g. 0, Games’,

p11 int COMMENT ‘gender’,

dt string COMMENT ‘date, like 26/6/2017’,

action string COMMENT ‘clickmodule, click_taghead_link, clicklink’)

CLUSTERED BY (

dt)

INTO 4 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘,’

STORED AS INPUTFORMAT

‘org.apache.hadoop.mapred.TextInputFormat’

OUTPUTFORMAT

‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’

LOCATION

‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags’

TBLPROPERTIES (

‘numFiles’=’1’,

‘numRows’=’0’,

‘rawDataSize’=’0’,

‘totalSize’=’70575510’,

‘transient_lastDdlTime’=’1500469448’)

new_ddl_file文件内容CREATE EXTERNAL TABLE raw_tags(

p0 string COMMENT ‘uid’,

p3 string COMMENT ‘tag name, e.g. news, games, fairs, shoopingURL’,

p4 string COMMENT ‘e.g. 0, Games’,

p11 int COMMENT ‘gender’,

dt string COMMENT ‘date, like 26/6/2017’,

action string COMMENT ‘clickmodule, click_taghead_link, clicklink’)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘,’

STORED AS INPUTFORMAT

‘org.apache.hadoop.mapred.TextInputFormat’

OUTPUTFORMAT

‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’

LOCATION

‘hdfs://hdfs-ha/apps/hive/warehouse/ksai.db/raw_tags’

TBLPROPERTIES (

‘COLUMN_STATS_ACCURATE’=’{\”BASIC_STATS\”:\”true\”}’,

‘numFiles’=’0’,

‘numRows’=’0’,

‘rawDataSize’=’0’,

‘totalSize’=’0’,

‘transient_lastDdlTime’=’1521546069’)

肉眼很难看出来区别吧?

【执行结果】

那么就使用上面的脚本来比较,在linux命令行的使用方法 python -f1 file1 -f2 file2 也就是:

python compare_two_files.py -f1 old_ddl_file -f2 new_ddl_file

1573106811492511.png

再把运行结果产生的html文件下载到本地,用任一种浏览器打开即可,如截图:

1573106842685761.png

运行结果:

1573106861792893.jpg

使用浏览器查看html文件,可以看到,里面给出了各种颜色标注的图例说明,一目了然。

众多python培训视频,尽在python学习网,欢迎在线学习!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值