simhash：海量无标签样本的去重算法

最新推荐文章于 2025-07-04 11:54:47 发布

原创

最新推荐文章于 2025-07-04 11:54:47 发布 · 927 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

一、样本去重的原因

在NLP的工程实践中，经常涉及到样本标注工作。例如，在实体识别中，对实体标注的原则是尽量包括更多的实体，这样才能实现“好而不同”的标注目标。因此，面临大量的无标签样本，就需要我们去重，挑选出尽量不同的样本进行标注。

二、样本去重算法simhash

simhash是样本去重的一种常用算法，本文强调实战应用，不再赘述其具体原理。下面给出一段代码。

# -*- encoding=utf-8 -*-

single_bits = {
   
   }
for x in range(32):
    single_bits[x] = 1 << x

def simhash(str):
    simhash_map = {
   
   }
    for x in range(32):
        simhash

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

渔舟唱晚兮

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

simhash原理以及用python3实现simhash算法详解（附python3源码）

数据知道的博客

06-12

2万+

Simhash应用场景：计算大规模文本相似度，实现海量文本信息去重。 Simhash算法原理：通过hash值比较相似度，通过两个字符串计算出的hash值，进行异或操作，然后得到相差的个数，数字越大则差异越大。

17---没有标签的训练

我的博客，不一样的自我表达

05-06

334

几乎所有可用的数据都没有标记。标记数据需要人工审查和/或需要时间来收集。零样本分类采用现有的大型语言模型，并在候选文本和标签列表之间进行相似性比较。这已被证明表现出奇的好。零样本分类器的问题在于它们需要大量参数 (400M+) 才能很好地应对一般任务，这对硬件要求很高。本文探索使用零样本分类器为较小的模型构建训练数据。一种简单的知识蒸馏形式。安装依赖安装txtai和所有依赖项。将零样本分类器应用于未标记的文本。

参与评论您还未登录，请先登录后发表或查看评论

simhash去重算法实践

LFGxiaogang的博客

12-20

602

自己实践simhash算法的几点经验：１　数据已处理，正则表达式去除各种转义符号２　将文本中的数字和字母等去除３　分词后去除停顿词步骤，１　文本预处理代码步骤

新闻内容去重算法simhash实践

leiting_imecas的博客

02-16

6260

前言最近做了新闻去重算法的工作，mark下两个应用场景：1. 重复新闻整体检测、去重 2. 从非重复的新闻中寻找重复的句子，依次判断两篇新闻是否存在同一个话题的不同观点（多方观点提取）本人不负责爬虫，爬虫的同事只做了简单的新闻title重复的检测、去重。我提供内容的检测算法一通用网页去重算法框架二 simhash

超星雅尔数据挖掘基础B第十一讲无标签的数据分析算法

qq_40930096的博客

05-20

5165

1【单选题】当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（） A、分类 B、聚类 C、关联分析 D、主成分分析正确答案： B 2【单选题】下列关于层次聚类存在的问题说法正确的是（） A、具有全局优化目标函数 B、Group Average擅长处理球状的簇 C、可以处理不同大小簇的能力 D、Max对噪声点和离群点很敏感正确答案： B 3【单选题】规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为（） A、0.4,0.4 B、0.67,0.67 C、0.4,

[Algorithm] 使用SimHash进行海量文本去重

weixin_33829657的博客

02-20

620

　　在之前的两篇博文分别介绍了常用的hash方法（[Data Structure & Algorithm] Hash那点事儿）以及局部敏感hash算法（[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)），本文介绍的SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。 1. SimHash与传统hash...

simhash详解及其他去重方法

霜叶的博客

03-11

305

1、https://daiwk.github.io/posts/ml-topknn.html(几种simhash表示，这个里面包含了simhash的计算) 2、https://www.cnblogs.com/maybe2030/p/5203186.html(simhash详解) 3、https://zhuanlan.zhihu.com/p/43640234(去重方法综述)

使用SimHash进行海量文本去重

点滴

10-10

864

欢迎访问我的新博客：传送门一、参考资料使用SimHash进行海量文本去重 by Poll的笔记 simhash主要流程是：分词加权合并降维去重的主要思想是：仿照hashmap的思想重构一个适合simhash的数据结构将64bit位hash分割成多段，例如4段16位，每段作为一个map_key,并使用链表作为map_value, 存储文本hash值接下来针对...

用于文本去重（相似度计算）的Simhash算法学习及python实现（持续学习中）

热门推荐

qq_44418077的博客

03-05

1万+

Simhash算法学习及python实现1. Simhash算法是什么？2.Simhash算法思想3.Simhash算法流程3.1 分词3.2 hash3.3 加权3.4 合并3.5降维4. SimHash签名距离计算4.1 什么是海明距离呢？4.2 大规模数据下的海明距离计算参考文章来源于众多文章的学习，将在文章末尾，集中附录出所有学习的文章 1. Simhash算法是什么？一段文字所包含的信息，就是它的信息熵。如果对这段信息进行无损压缩编码，理论上编码后的最短长度就是它的信息熵大小。如果仅仅是用来

【深度好文】simhash文本去重流程

smilemilk的博客

11-25

450

simhash长文本查重算法原理与实战

qq_51677409的博客

03-02

3317

SimHash本身属于一种局部敏感hash，其主要思想是降维，将高维的特征向量转化成一个f位的指纹（fingerprint），通过算出两个指纹的海明距离（hamming distince）来确定两篇文章的相似度，海明距离越小，相似度越低（根据 Detecting Near-Duplicates for Web Crawling 论文中所说），。simhash也有其局限性，在处理小于500字的短文本时，simhash的表现并不是很好，所以在使用simhash前一定要注意这个细节。参考文献。

一千万条数据去重_simhash算法：海量千万级的数据去重

weixin_36356002的博客

12-23

483

simhash算法：海量千万级的数据去重simhash算法及原理参考：简单易懂讲解simhash算法 hash 哈希：https://blog.csdn.net/le_le_name/article/details/51615931simhash算法及原理简介：https://blog.csdn.net/lengye7/article/details/79789206使用SimHash进行海量文本...

Java实现simHash算法

05-21

Java实现simHash算法，对应博客http://www.cnblogs.com/hxsyl/p/4518506.html

LLM实践系列-数据去重之Simhash&Minhash分析与实现

m0_59235699的博客

10-14

2675

数据处理是LLM pretrain的核心环节，去重又是数据处理的重要组成部分，这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么，而仅仅是了解什么，所以回答和文章大多都会附上代码，这篇也是一样。顾名思义，文档粒度就是以文档为单位，删除重复文档。这种做法最为普遍，主要是为了删除完全重复或几乎一致的文档，这种文档一般来自于相同文档的不同源发布转载、重复爬取等。

使用汉明算法与simhash去重

最新发布

m0_56366541的博客

07-04

1038

本文介绍了一个基于Simhash算法的文本去重函数simhash_dedup。该函数通过计算文本的64位Simhash指纹，并使用汉明距离（默认阈值为3）判断内容相似性，有效去除近似重复项。主要参数包括：字典列表（含待比较文本）、内容键名和相似度阈值。核心实现通过异或运算计算哈希差异位数，当差异位数小于阈值时判定为重复。适用于网页爬虫、新闻聚合等需要处理大量相似文本的场景，能够保留语义相似但非重复的内容。示例展示了如何去除只存在标点差异的近似重复文本。

海量数据去重

Rain

09-10

1538

法一：hash，通过哈希映射构建原始数据与hash值之间的关系。若哈希值相同则存在相同的数据，剔除即可。缺点：需要存储该数据与映射关系。法二：bitmap，位图法，对于去重的问题，我们只需要标记该数据有没有出现过，并不需要去存储该数据。从这方面入手，便有了bitmap。这里我们假设待处理的数据是int型数据，占32位。则数值区间为2^32，一共需要2^32位来标识所有的数值，那么我们只需要含...

医学数据处理1_ 病人样本去重

4AM_明朝百晓生

07-20

501

前言：最近帮朋友做了一些医学统计大数据处理的程序，遇到一种FDR 陆续更新目录： 1：病人样本去重 2： FDR 算法一病人样本去重二 FDR 算法 https://www.jianshu.com/p/d86823ecd3ac https://wenku.baidu.com/view/a518f01aa45177232f60a2a2.htm...

无标签训练

发呆的比目鱼的博客

12-23

833

无标签训练本教程系列将涵盖txtai的主要用例，这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码，可也可以在colab 中使用。 colab 地址参考 https://dev.to/neuml/tutorial-series-on-txtai-ibg

无监督学习：无标签数据进行模型训练的方法

AI天才研究院

01-18

1060

1.背景介绍无监督学习是一种机器学习方法，它不需要预先标记的数据来训练模型。相反，它利用未标记的数据来发现数据中的结构和模式。无监督学习的目标是找到数据的潜在结构，以便在未知数据上进行预测。这种方法在处理大量无标签数据时非常有用，例如图像、文本、音频等。无监督学习的主要应用场景包括聚类、降维、异常检测和数据清洗等。无监督学习可以帮助发现数据中的隐藏模式，从而提高模型的性能和准确性。在本...

Hadoop环境下随机森林算法：海量数据建模与优化策略

它由众多CART（Classification and Regression Trees）决策树组成，这些决策树在经过有放回抽样的自助样本上独立生长。每个决策树在节点分裂时，随机选择部分特征进行划分，以增加模型的多样性。在分类任务中，通过...