一、样本去重的原因
在NLP的工程实践中,经常涉及到样本标注工作。例如,在实体识别中,对实体标注的原则是尽量包括更多的实体,这样才能实现“好而不同”的标注目标。因此,面临大量的无标签样本,就需要我们去重,挑选出尽量不同的样本进行标注。
二、样本去重算法simhash
simhash是样本去重的一种常用算法,本文强调实战应用,不再赘述其具体原理。下面给出一段代码。
# -*- encoding=utf-8 -*-
single_bits = {
}
for x in range(32):
single_bits[x] = 1 << x
def simhash(str):
simhash_map = {
}
for x in range(32):
simhash

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



