Python小脚本:计算两个文件内容的相似率

     之前拿到一堆源码文件,在整理的时候需要计算一些文件之间的相似率。与之相关第一个想到的就是Linux上的” diff “命令。把diff命令的输出拿过来简单计算一下,就有结果了。于是用Python调用一下命令行,短短几行代码,就OK了。

# !/usr/bin/python
# -*- coding: utf-8 -*-


"""
create_author : 蛙鳜鸡鹳狸猿
create_time   : 2017-06-01
program       : *_* evaluate the similarity between two files *_*
"""


import commands


def simieval(lf, rf):
    """
    UDF of evaluating the similarity between two files.
    Rely on "diff" handler on Linux platform.
    Default to ignore blanks by "-bB".
    :param lf: string
        File to diff at left.
    :param rf: string
        File to diff at right.
    :return: float
        Similarity ratio between two files.
    """
    le = float(commands.getoutput("diff -bB %s %s | awk 'BEGIN {cnt = 0}; /^[0-9]/ {cnt -= 1}; /^[<>]/ {cnt += 1}; END {print cnt}'" % (lf, rf)))
    re = float(commands.getoutput("nl %s %s | awk '{print $2}' | grep -v '^$' | wc -l" % (lf, rf)))
    result = 1 - le / re
    return result


if __name__ == "__main__":
    writer = "/home/student/"

    ll = """
    Ubuntu
    MySQL
    C
    JAVA
    Shell
    """
    wl = open(writer + "lf", 'w')
    wl.writelines(ll)
    wl.close()

    lr = """
    CentOS
    MySQL
    C
    Python
    """
    wr = open(writer + "rf", 'w')
    wr.writelines(lr)
    wr.close()

    se = simieval(lf=writer + "lf", rf=writer + "rf")
    print(se)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值