源程序的相似性判断---初级版本（哈希表）

最新推荐文章于 2021-01-27 08:13:24 发布

曼舞精灵

最新推荐文章于 2021-01-27 08:13:24 发布

阅读量5.7k

点赞数 12

分类专栏：算法集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39800695/article/details/87970849

版权

本文介绍了使用哈希表统计C++源程序中关键字频率，通过计算向量的相对距离和夹角余弦值来判断两个源程序的相似性。程序代码实现包括创建哈希表、读取文件、关键词匹配和相似度计算。

摘要由CSDN通过智能技术生成

问题描述

对于两个C++语言的源程序代码，用哈希表的方法分别统计两个程序中使用C++语言关键字的情况，并最终按定量的计算结果，得出两份程序的相似性。

基本思路

建立C++语言关键字的哈希表，统计在每个源程序中C++关键字出现的频度, 得到两个向量X1和X2，通过计算向量X1和X2的相对距离来判断两个源程序的相似性。
例如:
  关键字    Void Int For Char if else while do break class
程序1关键字频度 4 3 0 4 3 0 7 0 0 2
程序2关键字频度 4 2 0 5 4 0 5 2 0 1
       X1=[4,3,0,4,3,0,7,0,0,2]
        X2=[4,2,0,5,4,0,5,2,0,1]

（关键词不限于上述内容，尽可能多些！）
设D是向量X1和X2的相对距离，D=sqrt( ∑(x1[i]-x2[i]) 2 )，当

最低0.47元/天解锁文章

关注

12
点赞
踩
84

收藏

觉得还不错? 一键收藏
20
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 20

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。