word2vex学习

最新推荐文章于 2022-09-01 21:40:49 发布

沐依

最新推荐文章于 2022-09-01 21:40:49 发布

阅读量562

点赞数

文章标签： first

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32560769/article/details/80750567

版权

中文文本转向量

首先介绍One-hot词向量方法：简单来讲，获取所有文本的词生成一个索引序列，一般索引序列的大小就是文本向量的大小，当然也可以去除词频比较低的词，生成一个指定大小的向量。

举个例子：（1）我在回家的路上。（2）我回家之后打游戏。

分词之后生成索引序列为 [回家，我，在，的，路上，之后，打，游戏]

文本（1）转为向量为（1，1，1，1，1，0，0，0）

文本（2）转为向量为（1，1，0，0，0，1，1，1）

One-hot向量存在两大缺陷：（1）词与词之间的关系是相互独立的，仅从向量中看不出两个词是否有关系。

（2）“维度灾难”，随着词数量的增加，生成文本向量的维度也会增加。

下面来介绍一下Word2Vec词向量表示法，它克服了one-hot编码的两大缺陷，优势在于将每一个词映射为一个固定长短的向量。

以下内容还在进一步学习。

Word2Vec算法原理：参考：https://blog.csdn.net/mpk_no1/article/details/72458003

CBOW模型在随机给出周围词向量的情况下，计算为该词的概率。通过使这个概率最大化，不断更新向量和。最终周围词的词向量 = 随机词向量 + 更新后的向量和。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
word2vex学习

中文文本转向量首先介绍One-hot词向量方法：简单来讲，获取所有文本的词生成一个索引序列，一般索引序列的大小就是文本向量的大小，当然也可以去除词频比较低的词，生成一个指定大小的向量。举个例子：（1）我在回家的路上。（2）我回家之后打游戏。分词之后生成索引序列为 [回家，我，在，的，路上，之后，打，游戏]文本（1）转为向量为（1，1，1，1，1，0，0...
复制链接

扫一扫

沐依 CSDN认证博客专家 CSDN认证企业博客

码龄9年

11: 原创

80万+: 周排名

102万+: 总排名

3万+: 访问

: 等级

445: 积分

2: 粉丝

12: 获赞

10: 评论

94: 收藏

私信

关注

热门文章

分类专栏

pyinstaller 1篇
pyqt5 1篇
python 10篇
keras 2篇
mxnet 2篇
pytorch 1篇

最新评论

pyinstaller打包mxnet框架项目
落雪霜林: 对于某些dll文件打包不进去的情况，输入参数 --add-data='<python-path>\Lib\site-packages\mxnet\*.dll;.\mxnet' 即可
pyinstaller打包mxnet框架项目
落雪霜林: 对于某些dll文件打包不进去的情况，输入参数 --add-data='<python-path>\Lib\site-packages\mxnet\*.dll;.\mxnet' 即可
keras 模型读取和预测
JOKERCDD: 从preprocessing 导入这个函数
keras 模型读取和预测
娃要大红花回复 fwjajaj: 作者代码不完整，你需要的可能是：from keras.applications.inception_v3 import preprocess_input
keras 模型读取和预测
fwjajaj: x = preprocess_input(x) NameError: name 'preprocess_input' is not defined 这个怎么解决？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。