学习项目---文件查重

最新推荐文章于 2024-08-12 14:46:59 发布

置顶

acwing_220v电动⑧

最新推荐文章于 2024-08-12 14:46:59 发布

阅读量854

点赞数

分类专栏：困难

本文链接：https://blog.csdn.net/weixin_41883223/article/details/87989172

版权

本文介绍了文件查重的原理，包括中文分词方法、词频统计和文本相似度计算公式，并提供了源码分析，使用jieba分词工具进行分词，通过余弦相似度计算文本相似度。同时，讨论了在不同环境下如deepin和Windows系统下处理编码问题的方法。

摘要由CSDN通过智能技术生成

声明：本项目在deepin系统下vim编译的，利用了jieba分词工具，如果在vs编译的话需要设置文件路径，还需要把GDK转成UTF8，在读的时候用UTF8转成GDK

虽然使用的是jieba分词，但是我们可以多了解一点，便于以后的扩展：

三大主流分词方法：基于词典的方法、基于规则的方法和基于统计的方法。

1.1.1、分词目的：用于计算文本相似度

1.1.2、基于规则或词典的方法：

1.1.3、基于统计的分词：

主要思想：把每个词看做是由词的最小单位各个字总成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度，统计语料中相邻共现的各个字的组合的频度，当组合频度高于某一个临界值时，我们便可认为此字组可能会构成一个词语。
主要统计模型：N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model ，HMM），最大熵模型（ME），条件随机场模型（Conditional Random Fields，CRF）等。

具体知识参考：https://blog.csdn.net/mingzai624/article/details/51698643；（这里我们就不做这个步骤了，就利用现成的jieba，有兴趣的可以自己实现一个分词工具）

分词工具的下载：

词频即为单词在文章中出现的次数。
词频的大小一般可以反映一个词在一篇文章中的重要性，词频越大，可以认为该词越重要。
一片文章的语义可以由一组关键词简要概括，比如“爱上一个人”，这里停顿不一样就不一样。”爱“，”上“，”一个人“：就是想那个啥嗯嗯。”爱“，”上一个人“可以理解为喜欢之前的一个人，或者就是喜欢现在一个人。这里就体现上一个步骤的重要性了，分好了，这一步就根据符合可以区分

代码中利用jieba分词中提供的停用词工具和语义替换成/，让我们跟好的可以统计词频

1.3.1 基于关键词匹配:

1.3.2 基于向量空间:

Word2vec
TF-IDF
相似度计算
1.  欧式距离
2. 曼哈顿距离
3. 余弦相似度(我用的这种方法)：余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。