数据相似度检测

最新推荐文章于 2024-05-07 15:32:49 发布

V丶Chao

最新推荐文章于 2024-05-07 15:32:49 发布

阅读量2.5k

点赞数

文章标签：算法数据挖掘 python java 人工智能

本文链接：https://blog.csdn.net/u011698800/article/details/107607262

版权

http://blog.sina.com.cn/s/blog_1777542730102xuqz.html
上面这个是中文的一个解释。

这里我并不是为了要进行某种相似度函数的解释，而是说，怎么来解决我一直困扰的问题。n^2问题。
就是要获取全部的对比样本，我应该怎么做，在大数据环境下，如果上千上万个样本，这玩意就更难弄了。
我这里出现的问题就是，我前面在做这个二进制程序的比较，然后发现了这么一个问题，我使用ssdeep获取了这个程序的哈希数值，但是我要获取其中相似度最高的对，也就是说要进行相似度比较，那么比较简答的方法就是两两相比，就是这么简单嘛。
但是这种方式的复杂度是多少呢，是n(n-1)/2，C n 2问题。算法的时间复杂度就是o(n^2)问题。
因为使用的是mysql数据库，我当前没有对每行记录进行标记，是否这个样本已经做了比较（其实这个逻辑好像不难，但是也有点麻烦，得仔细设计）。然后最后图简单就是直接重新全部跑，虽然数据可能插不进去，但是每次都是把所有的数据都跑了一边。
（如果有批量查询就好了，应该有吧，就是批量查询是否这些主键是否存在）
然后这样的结果当然是非常不尽人意，最开始的单线程操作，之后又是多线程操作，改为多线程的时候，速度明显提升了，但是后来数据量上去了之后，就发现出现的bug是说，数据库连接太多的错误好像。反正就是不太对。

那么这里的问题就很明显了，到底应该怎么来弄这个东西呢？
之前看过的一些内容的就是利用局部哈希的方法来做，但其实我对这个东西看了很多遍之后，反而模糊了。
因为有的文章是说将minhash和LSH组合在一起，但是本身来说，minhash不就是LSH吗？
所有这里我非常疑惑。
而且实际情况是，我本身要做的是二进制程序的程序的相似度比较，我已经通过ssdeep的方法，将这部分内容给凝练出来了。这就非常尴尬了。他最后的，已经是一个数值了，是不是说这种方法之后还是需要进一步进行操作呢？
（这里还有一个问题，ssdeep进行比较的时候是怎么比较的，我是利用了这个东西的py库进行比较，并不是非常清楚具体的内容，这里也是一个可以改进的地方）

好了，说了这么多，基本上问题也就大致上清楚了。