NLP学习笔记：word2vec

最新推荐文章于 2024-08-21 23:42:00 发布

UQI-LIUWJ

最新推荐文章于 2024-08-21 23:42:00 发布

阅读量503

点赞数 1

分类专栏： NLP 文章标签： python 深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/118424998

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了词嵌入（如word2vec）在自然语言处理中的重要性，以及one-hot编码作为词向量表示的缺点，如稀疏性和无法计算相似度。针对这些问题，介绍了跳字模型（skip-gram）和连续词袋模型（CBOW）作为解决方案。

摘要由CSDN通过智能技术生成

1 词嵌入（word2vec）

在自然语言这套系统中，词是表义的基本单元。

但是在计算机以及程序运算中，词是识别不了的。任何的内容都需要转化成向量embedding的形式。

于是我们就需要对词的特征进行表征，所以词向量就应运而生了。

把词映射为实数域向量的技术也叫词嵌入（word embedding）。

2 用onehot表示词向量的弊端

2.1 onehot 词向量

假设词典中一共有N个不同的词，每个词可以和从0到N−1的连续整数一一对应。这些与词对应的整数叫作词的索引。

假设一个词的索引为i，那么该词的onehot词向量就是只有第i位位1，其他N-1位全部为0的向量。

换句话说：就是有多少个不同的词，我就会创建多少维的向量。

2.2 onehot词向量存在的问题

1 词向量集合过于稀疏，需要极大的存储空间

2 无法进行单词之间的相似度计算。（因为每个单词在空间中都是正交的向量，彼此之间没有任何联系。）【像坐标系中的向量，我们可以根据余弦相似度（两个向量之间的夹角）来判断两个向量的相似程度】

2.3 onehot词向量问题的解决方案

1，跳字模型（skip-gram）：通过中心词来推断上下文一定窗口内的单词。

2，连续词袋模型（continuous bag of words，CBOW）：通过上下文来推断中心词。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
NLP学习笔记：word2vec

1词嵌入（word2vec）在自然语言这套系统中，词是表义的基本单元。但是在计算机以及程序运算中，词是识别不了的。任何的内容都需要转化成向量embedding的形式。于是我们就需要对词的特征进行表征，所以词向量就应运而生了。把词映射为实数域向量的技术也叫词嵌入（word embedding）。2 用onehot表示词向量的弊端...
复制链接

扫一扫

专栏目录

UQI-LIUWJ CSDN认证博客专家 CSDN认证企业博客

码龄7年

1456: 原创

8622: 周排名

840: 总排名

220万+: 访问

: 等级

1万+: 积分

3066: 粉丝

4555: 获赞

804: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据集笔记：杭州 & 上海地铁客流数据
UQI-LIUWJ: 我还有一个上海地铁数据，但不知道是不是同一个数据，需要的话私戳我个wx我发你
数据集笔记：杭州 & 上海地铁客流数据
Fraser6: 你好，请问有刷卡的原始数据吗？
论文笔记：Human Mobility Prediction Challenge: Next LocationPrediction using Spatiotemporal BERT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Human Mobility Prediction Challenge: Next LocationPrediction using Spatiotemporal BERT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Cell-Level Trajectory Prediction Using Time-embeddedEncoder-Decoder Network
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。