二分类负采样方法

108 篇文章 41 订阅 ¥39.90 ¥99.00
37 篇文章 2 订阅
本文探讨了在处理多分类问题时如何采用二分类负采样方法。内容包括负采样的概念,如何抽取和基于频率的负例采样策略,特别是word2vec中的负采样调整。此外,还介绍了如何在实际应用中创建负例的概率分布,并以一个具体例子展示了负采样层的实现,包括正向传播和反向传播过程。
摘要由CSDN通过智能技术生成

多分类问题处理为二分类问题,需要能够正确地对正例和负例进行分类。

如果以所有的负例为对象,词汇量将增加许多,无法处理。作为一种近似方法,将只使用少数负例。

负采样方法:求正例作为目标词时的损失,同时采样(选出)若干个负例,对这些负例求损失。然后,将正例和采样出来的负例的损失加起来,作为最终的损失。例子如下图所示。

在这里插入图片描述

负采样的采样方法:

抽取负例:让语料库中常出现的单词易被抽到,不常出现的单词难被抽到。

基于频率的采样方法:计算语料库中各个单词的出现次数,并将其表示为概率分布,然后使用这个概率分布对单词进行采样。

通过给np.random.choice函数参数p,指定表示概率分布的列表,将进行基于概率分布的采样。

import numpy as np
words = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

每天学点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值