词向量（One-Hot Encoding、Word Embedding、Word2Vec）

qq_1532145264

于 2024-08-20 15:59:30 发布

阅读量162

点赞数 3

分类专栏：机器学习文章标签： word embedding word2vec 自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_1532145264/article/details/141354254

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

词向量，顾名思义，用向量表示单词。

1、One-Hot Encoding

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

在这里插入图片描述

python 代码示例：

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  # 训练。这里共有4个数据，3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试。这里使用1个新数据来测试
   
print array   # [[ 1  0  0  1  0  0  0  0  1]] # 独热编码结果

*后面参考文献有对代码进行解释

使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。

2、Word Embedding

由于 One-Hot Encoding 表示的词向量无法解决词之间相似性问题（即词与词之间的关系）。
然而，通过 One-Hot Encoding 表示的词向量输入神经网络语言模型中，得到新的词向量可以解决词之间相似性问题（即可以采用余弦相似度等方法计算两个词之间的相似度）。

在这里插入图片描述

Word Embedding 例子：

当一个单词表达成 Word Embedding 后，很容易找出语义相近的其它词汇。

Word Embedding

3、Word2Vec

Word2Vec 是 Word Embedding 语言模型之一。

在这里插入图片描述

Word2Vec 有两种训练方法：
第一种叫 CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；
第二种叫做 Skip-gram，和 CBOW 正好反过来，输入某个单词，要求网络预测它的上下文单词。

[REFERENCE]

数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码
 机器学习数据预处理1：独热编码（One-Hot）及其代码
 机器学习之独热编码（One-Hot）详解（代码解释）

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
词向量（One-Hot Encoding、Word Embedding、Word2Vec）

用向量表示单词的词向量
复制链接

扫一扫

专栏目录

qq_1532145264 CSDN认证博客专家 CSDN认证企业博客

码龄1年

75: 原创

9万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1031: 积分

246: 粉丝

267: 获赞

22: 评论

616: 收藏

私信

关注

热门文章

分类专栏

产品经理 1篇
Java 10篇
数据库 4篇
Web 4篇
机器学习 10篇
数据分析 3篇
Linux 1篇
小程序
软件测试 1篇
Matlab 1篇
English 2篇
计算机基础知识（考研408） 5篇
数学 2篇
阅读书籍 21篇
科技财经 1篇
感悟 3篇
运动 1篇
社交
其他 6篇

最新评论

有点意思的求学之路
rYu1nser: 学长上岸到哪里了呀
基于MATLAB车牌识别系统设计
我不想再敲啦: 哥，你给的代码下载下来咋用啊
计算机基础知识（考研408）——操作系统
小心小心vx: 请问可以求一份文档吗？发到邮箱可以吗？349338829@qq.com，可以小偿！！
Python数据可视化第三方库pyecharts
CSDN-Ada助手: 恭喜您发布了第15篇博客！看到您对Python数据可视化第三方库pyecharts的深入探讨，我感到非常佩服。希望您能继续保持创作的热情和耐心，不断分享您的经验和见解。下一步，我建议您可以尝试结合实际案例，深入分析pyecharts在数据可视化中的应用，这样可以让读者更直观地理解pyecharts的强大之处。期待您更多的精彩内容，加油！
基于Python的城市招聘信息爬取和分析
CSDN-Ada助手: 恭喜作者在技术领域的深度探索，第16篇博客内容丰富，对Python的应用有着深入的研究和实践。希望作者能够继续保持创作的热情，不断分享自己的学习和实践经验。或许下一步可以考虑分享一些实际案例或者应用场景，让读者更好地理解Python在城市招聘信息爬取和分析中的具体应用。期待作者更多精彩的创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。