2020-06-06 nlp03之词向量简述

接上篇one-hot

one-hot与词向量的分布式表示的不同     举个例子:

我们每天都在进步的one-hot表示

我们(1, 0, 0, 0, 0)      每天( 0, 1, 0, 0, 0)     都( 0, 0, 1, 0, 0)        在( 0, 0, 0, 1, 0)     进步( 0, 0, 0, 0, 1) 

词向量的表示

我们(0.2, 0.1, 0.3, 0.5, 0.8)      每天( 0.5, 1.6, 0.4, 0.8, 0.1)     都( 0.165, 0.46, 0.21, 0.574, 0.5)        在( 0.3, 0.2, 0.1, 0.6, 0.4)     进步( 0.1, 0.2, 0.3, 0.4, 1.5)

 

one-hot与词向量的分布式表示之间的区别:

1、长度

one-hot的长度为中文本中单词的个数,为200000个

词向量的长度,通常为100维-----300维, (可自定义,通过word2vec进行训练,或者直接用腾讯已经训练好的word2vec模型,我在工作中,使用腾讯的word2vec模型进行重新训练,发现word2vec这种方式,产生出的词向量,用于情感分析,效果有时候还不如tf-idf好。效果最好的属于bert模型)

2、稀疏性

one-hot有一定的稀疏性

词向量很稠密

 

理想中,词向量代表单词的意思

词向量转化成句子向量:

平均法:叠加后求均值

rnn/lstm 

 

word2vec的训练方式,已经有很多篇相关的文章了,在后期再进行详细介绍

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值