[深度学习] embedding 在test阶段遇到OOV怎么办

即使是char级别的rnn模型,在test阶段也会遇到OOV

这种情况肯定是没法用embedding层的lookup的


如果OOV情况不多,就可以当做UNK处理

有两类思路:

1. UNK有对应的embedding

    这种情况怎么来的呢,就是把训练集中所有出现频率小于某个阈值的词都标记为UNK,当然也别太多,这样就得到了UNK的embedding,这里的embedding有一定的语义信息,仁者见仁,可能不好使  


2. UNK没有对应的embedding

    a. 把UNK都初始化成0的向量

    b. 每次都把UNK初始化成一个新的随机向量

    

    都初始化成0向量,会使得UNK都共享相同的语义信息,所以很多人都倾向于对UNK直接随机,因为本身每个UNK都不同,随机更符合我们对UNK基于最大熵的估计,即我不知道你是个啥,所以我就随机出一个,很多地方也证实使用随机向量处理UNK带来的好处:

How to add new embeddings for unknown words in Tensorflow

Initializing Out of Vocabulary (OOV) tokens



如果OOV的情况较多,建议重新train一份embedding

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值