one-hot向量与word2vec

最新推荐文章于 2024-01-29 15:54:19 发布

VIP文章 mawenqi0729

最新推荐文章于 2024-01-29 15:54:19 发布

阅读量1.7w

点赞数 23

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mawenqi0729/article/details/80698780

版权

one-hot向量与word2vec

one-hot向量

1.1 one-hot编码

　　什么是one-hot编码？one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：　　　　

上图中我们已经对每个特征进行了普通的数字编码：我们的feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。那么one-hot编码是怎么搞的呢？我们再拿feature_2来说明：

这里feature_2 有4种取值（状态），我们就用4个状态位来表示这个特征，one-hot编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。

　　　　　

对于2种状态、三种状态、甚至更多状态都是这样表示，所以我们可以得到这些样本特征的新表示：

　　　　　　

one-hot编码将每个状态位都看成一个特征。对于前两个样本我们可以得到它的特征向量分别为

　　　　　

1.2 one-hot在提取文本特征上的应用

　　one hot在特征提取上属于词袋模型（bag of words）。关于如何使用one-hot抽取文本特征向量我们通过以下例子来说明。假设我们的语料库中有三段话：

　　　　我爱中国

　　　　爸爸妈妈爱我

　　　　爸爸妈妈爱中国

我们首先对预料库分离并获取其中所有的词，然后对每个此进行编号：

　　　　1 我； 2 爱； 3 爸爸； 4 妈妈；5 中国

然后使用one hot对每段话

最低0.47元/天解锁文章

关注

23
点赞
踩
78

收藏

觉得还不错? 一键收藏
2
评论
one-hot向量与word2vec

one-hot向量与word2vecone-hot向量1.1 one-hot编码　　什么是one-hot编码？one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：　　　　上图中我们已经对每个特征进行了...
复制链接

扫一扫

专栏目录

mawenqi0729 CSDN认证博客专家 CSDN认证企业博客

码龄7年

16: 原创

13万+: 周排名

57万+: 总排名

18万+: 访问

: 等级

1036: 积分

80: 粉丝

201: 获赞

29: 评论

739: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是词向量？（NPL入门）
亦行460: 词向量技术可以解决自然语言中的交叉歧义问题吗？
什么是词向量？（NPL入门）
彼得虫: 博主你好，请问一下BOW词袋模型是不是也算一种基于统计方法的生成词向量的方法呢
什么是词向量？（NPL入门）
CloudBud: 把矩阵里面的每个字所代表的向量的前两维提取出来，当作一个(x,y)点绘制在二维图像上得出的。例如“I”这个字所代表的向量，前两维是0.24、0.21，所以在图上画一个(0.24,0.21)的点。因为作者没法画出高维空间的点给读者展示（当然3维空间的点可以用matlab展示），所以就是把矩阵里的每个8维向量选取了2维进行绘图展示了。
什么是词向量？（NPL入门）
m0_52628724: 请问一个词的词频对生成词向量有什么影响吗
定时发送消息--延迟队列
大家一起学编程（python）: 好文，评论一波走起

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。