word embedding怎么处理未登录词

知乎:https://www.zhihu.com/question/308543084
第一种方法
基本思路是尽可能找到还原语义的pre-trained embedding。步骤是:
1.原始词有没有2.全小写有没有3.全大写有没有4.首字母大写有没有5.三种次干化有没有6.长得最像的几种编辑方法有没有依次瀑布式查找。当然,最好的方式,是使用subword level的pre-trained language model,生成此OOV的contextual的特征。

第二种方法:
用UNK标签表示所有未登录词,但是UNK的embedding一般不会用零向量。
新增一个UNK标记,作为未登录词。
UNK词向量随机初始化,但是在训练集里面没有UNK,怎么训练它呢?那就在训练的时候根据词频 f(w) ,当f(w) > 2时,采用 z / (z + f(w)) 的概率把词随机变为UNK就行了, z 通常设为 0.8375 。

第三种方法:
加unk词,oov的词都assign到这上面,这是通常做法。而且有太多unk words说不定是你数据处理有问题,试试normalize一下。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值