2020-06-06 nlp03之词向量简述

最新推荐文章于 2022-11-22 22:14:01 发布

日出2133

最新推荐文章于 2022-11-22 22:14:01 发布

阅读量454

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwe1110/article/details/106525380

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

接上篇one-hot

one-hot与词向量的分布式表示的不同举个例子：

我们每天都在进步的one-hot表示：

我们(1, 0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都( 0, 0, 1, 0, 0) 在( 0, 0, 0, 1, 0) 进步( 0, 0, 0, 0, 1)

词向量的表示：

我们(0.2, 0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都( 0.165, 0.46, 0.21, 0.574, 0.5) 在( 0.3, 0.2, 0.1, 0.6, 0.4) 进步( 0.1, 0.2, 0.3, 0.4, 1.5)

one-hot与词向量的分布式表示之间的区别：

1、长度

one-hot的长度为中文本中单词的个数，为200000个

词向量的长度，通常为100维-----300维, （可自定义，通过word2vec进行训练，或者直接用腾讯已经训练好的word2vec模型，我在工作中，使用腾讯的word2vec模型进行重新训练，发现word2vec这种方式，产生出的词向量，用于情感分析，效果有时候还不如tf-idf好。效果最好的属于bert模型）

2、稀疏性

one-hot有一定的稀疏性

词向量很稠密

理想中，词向量代表单词的意思

词向量转化成句子向量：

平均法：叠加后求均值

rnn/lstm

word2vec的训练方式，已经有很多篇相关的文章了，在后期再进行详细介绍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-06-06 nlp03之词向量简述

接上篇one-hotone-hot与词向量的分布式表示的不同举个例子：我们每天都在进步的one-hot表示：我们(1,0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都(0, 0, 1, 0, 0) 在( 0, 0, 0, 1,0) 进步( 0, 0, 0, 0, 1)词向量的表示：我们(0.2,0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都(...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。