即使是char级别的rnn模型,在test阶段也会遇到OOV
这种情况肯定是没法用embedding层的lookup的
如果OOV情况不多,就可以当做UNK处理
有两类思路:
1. UNK有对应的embedding
这种情况怎么来的呢,就是把训练集中所有出现频率小于某个阈值的词都标记为UNK,当然也别太多,这样就得到了UNK的embedding,这里的embedding有一定的语义信息,仁者见仁,可能不好使
2. UNK没有对应的embedding
a. 把UNK都初始化成0的向量
b. 每次都把UNK初始化成一个新的随机向量
都初始化成0向量,会使得UNK都共享相同的语义信息,所以很多人都倾向于对UNK直接随机,因为本身每个UNK都不同,随机更符合我们对UNK基于最大熵的估计,即我不知道你是个啥,所以我就随机出一个,很多地方也证实使用随机向量处理UNK带来的好处:
How to add new embeddings for unknown words in Tensorflow
Initializing Out of Vocabulary (OOV) tokens
如果OOV的情况较多,建议重新train一份embedding