训练词向量中的二次采样

最新推荐文章于 2023-03-06 09:50:04 发布

shiinerise

最新推荐文章于 2023-03-06 09:50:04 发布

阅读量794

点赞数 2

分类专栏：深度学习文章标签：词向量词嵌入二次采样

本文链接：https://blog.csdn.net/Shine_rise/article/details/104575885

版权

深度学习专栏收录该内容

41 篇文章 1 订阅

订阅专栏

二次采样

文本数据中一般会出现一些高频词，如英文中的“the”“a”和“in”。通常来说，在一个背景窗口中，一个词（如“chip”）和较低频词（如“microprocessor”）同时出现比和较高频词（如“the”）同时出现对训练词嵌入模型更有益。因此，训练词嵌入模型时可以对词进行二次采样。具体来说，数据集中每个被索引词 $w_i$ 将有一定概率被丢弃，该丢弃概率为
$P(w_i)=\max(1-\sqrt{\frac{t}{f(w_i)}},0)$
其中 $f(w_i)$ 是数据集中词 $w_i$ 的个数与总词数之比，常数 $t$ 是一个超参数（实验中设为 $10^{−4}$ ）。可见，只有当 $f(w_i)>t$ 时，我们才有可能在二次采样中丢弃词 $w_i$ ，并且越高频的词被丢弃的概率越大。

#使用二次采样算法（subsampling）处理语料，强化训练效果
def subsampling(corpus, word2id_freq):
    
    #这个discard函数决定了一个词会不会被替换，这个函数是具有随机性的，每次调用结果不同
    #如果一个词的频率很大，那么它被遗弃的概率就很大
    def discard(word_id):
        return random.uniform(0, 1) < 1 - math.sqrt(
            1e-4 / word2id_freq[word_id] * len(corpus))

    corpus = [word for word in corpus if not discard(word)]
    return corpus