几种改进的embedding方法

本文介绍了几种改进的词向量方法,包括平均加权词向量、利用类标签加权和Attention Word Embedding。通过在不同数据集上的实验,这些方法展示了在提高基于embedding性能方面的潜力。尤其是Attention Word Embedding,它引入了注意力机制来优化词向量表示,且在词向量质量和下游NLP任务中表现良好。作者计划进一步实现并测试这些方法的组合效果。
摘要由CSDN通过智能技术生成

2020/06/17 更新:pytorch实现了后两种方法的代码,见地址:https://blog.csdn.net/weixin_41089007/article/details/106802819

 

最近看论文的时候发现好几篇改进词向量的小论文,方法虽然不复杂但是都挺有意思的,可能在工业界的某些任务上有奇效,分享一下~

1.平均加权词向量

paper:https://arxiv.org/abs/2002.05606

方法

先,分别用word2vec和glove计算出各个单词的词向量,后将其归一化:

其中,d代表word2vec或者glove词向量的尺寸d1或d2,w是word2vec或glove算法输出的单词的向量,表示归一化的单词向量。 然后将评论的评论向量r计算为标准化单词向量的平均值:

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值