word2vec：基于层级 softmax 和负采样的 CBOW

最新推荐文章于 2024-04-02 18:25:16 发布

Alice熹爱学习

最新推荐文章于 2024-04-02 18:25:16 发布

阅读量774

点赞数

分类专栏：自然语言处理面试基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/108728584

版权

自然语言处理面试基础专栏收录该内容

34 篇文章 34 订阅 ¥69.90 ¥99.00

订阅专栏

今天我们来看一下 word2vec，它是自然语言处理中非常重要的概念，是一种用语言模型做词嵌入的算法，目的就是将文字转化为更有意义的向量，进而可以让深度神经网络等模型更好地理解文本数据。

词嵌入

词嵌入（Word Embeddings）就是将文本转化为数字表示，转化成数值向量后才能传递给机器学习等模型进行后续的训练和运算，并应用于情感分析文档分类等诸多任务中。

词嵌入的方法主要有两大类：基于传统频数统计的词嵌入，和基于预测算法的词嵌入。

其中传统的词嵌入方法有：

计数向量
TF-IDF 向量
共现矩阵
One-hot 向量

1. 计数向量

就是统计每个单词在各个文档里出现的次数。例如我们有 N 个文档，这些文档里的不重复的单词组成了一个字典，然后构建一个矩阵，矩阵的每一行代表每个文档，每一列代表字典里的每个单词，矩阵的数值是每个单词在各文档里出现的次数，最后每一列就构成了这个词的向量表示：

2. TF-IDF 向量

在每个文档中有一些单词对理解文档起着很重要的作用，而有一些词例如特别常见的冠词等几乎在每个文档中都存在，这些词对理解文档的意义并不大，所以需要放大有意义的词的作用，减少常用词的影响，TF-IDF（Term Frequency–Inverse Document Frequency）就是一种这样的方法。

例如我们有这样一个例子&#x

了解本专栏

Alice熹爱学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec：基于层级 softmax 和负采样的 CBOW

今天我们来看一下 word2vec，它是自然语言处理中非常重要的概念，是一种用语言模型做词嵌入的算法，目的就是将文字转化为更有意义的向量，进而可以让深度神经网络等模型更好地理解文本数据。词嵌入词嵌入（Word Embeddings）就是将文本转化为数字表示，转化成数值向量后才能传递给机器学习等模型进行后续的训练和运算，并应用于情感分析文档分类等诸多任务中。词嵌入的方法主要有两大类：基于传统频...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。