功能说明
将两个向量分别存储在TXT中,选择功能计算余弦相似度,还是绝对误差
参数说明
--tpye cos表示余弦相似度;L1表示绝对误差
--fileA 输入第一个文件路径
--fileB 输入第二个文件路径
代码
下面展示一些 内联代码片
。
import os
import numpy as np
import argparse
def cos_sim(vector_a, vector_b):
"""
计算两个向量之间的余弦相似度
:param vector_a: 向量 a
:param vector_b: 向量 b
:return: sim
"""
vector_a = np.mat(vector_a)
vector_b = np.mat(vector_b)
num = float(vector_a * vector_b.T)
denom = np.linalg.norm(vector_a) * np.linalg.norm(vector_b)
cos = num / denom
sim = 0.5 + 0.5 * cos
return sim
def abs_diff(vector_a, vector_b):
num = vector_a.shape[1]
print("total numer: ",num)
sum = 0
for i in range(num):
sum += abs(vector_a[0][i] - vector_b[0][i])
return sum / float(num)
def parse_arg():
parser = argparse.ArgumentParser(description='calculate two files similarity')
parser.add_argument("--type",default="cos",type=str,help="cos or L1")
parser.add_argument('--fileA', type=str,help="first file")
parser.add_argument('--fileB', type=str,help="second file")
args = parser.parse_args()
return args
if __name__ == "__main__":
args = parse_arg()
arrayA = np.loadtxt(args.fileA).reshape(1,-1)
arrayB = np.loadtxt(args.fileB).reshape(1,-1)
if args.type == 'cos':
sim = cos_sim(arrayA,arrayB)
elif args.type == 'L1':
sim = abs_diff(arrayA,arrayB)
else:
print("type error!!!")
print("{} similarity is : ".format(args.type),sim)