多模态
文章平均质量分 56
新奥尔良仙
仙女堡老大 ฅ۶•ﻌ•♡
展开
-
文本去重:I-Match算法
from:文书、皮卡丘图片、佚名 I-Match算法主要是根据大规模的文本集合进行统计,对于文本中出现的所有单词,按照单词的TF-IDF(逆文本词频因子)来进行由高到低的排序,除去得分最高和得分最低的单词,保留剩下的单词最为特征词典。这一步骤主要是删除文本中的无关词,保留重要关键词。下面是I-Match流程示意图: ...原创 2021-10-22 15:12:00 · 568 阅读 · 0 评论 -
文本去重:sim哈希算法
站在巨人_啊哈、zstu_翊、lengye7、黑夜路人的肩膀上~ 分析数据前,我们需要对数据去重,如何选择和设计文本的去重算法? 常见的去重算法有:余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。这些算法对于数据量小的文本还比较好用,我们如何对于这些海量千万级的数据进行高效的合并去重? sim哈希算法原理原创 2021-10-21 16:04:11 · 1499 阅读 · 0 评论