深度学习：词嵌入（Word Embedding）以及Keras实现

最新推荐文章于 2024-02-24 20:00:43 发布

Undefined Exploder

最新推荐文章于 2024-02-24 20:00:43 发布

阅读量201

点赞数

原文链接：https://blog.csdn.net/LiQingBB/article/details/84931397

版权

原文链接：https://blog.csdn.net/LiQingBB/article/details/84931397
1.文本数据需要预处理成张量的形式，才能输入到神经网络。
2.文本划分成单元的过程叫做分词过程（tokenization），分成的单元叫做标记（token）。
3.文本可以划分为，单词、字符（abcdefg…）、n-gram等等。
4.一般用one-hot编码或者word-embedding将单词处理为数值张量。
5.one-hot编码简单，但是没有结构，任何两个单词之间的距离为 $\sqrt{2}$
6.word-embedding空间维度较小，空间中具有结构，相似的单词距离近，不相关的单词距离远。
7.embedding层的作用实际上可以看作是一个矩阵，将高维空间中的点映射到低维空间中。

文本 → 分词 →向量化
词向量化的方法主要有两种：
1.one-hot编码
2.word embedding

https://blog.csdn.net/LiQingBB/article/details/84931397

另外一种很清晰易懂的理解
https://www.cnblogs.com/USTC-ZCC/p/11068791.html

实际代码中的体现
https://www.jianshu.com/p/a3f3033a7379

Undefined Exploder

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习：词嵌入（Word Embedding）以及Keras实现

原文链接：https://blog.csdn.net/LiQingBB/article/details/849313971.文本数据需要预处理成张量的形式，才能输入到神经网络。2.文本划分成单元的过程叫做分词过程（tokenization），分成的单元叫做标记（token）。3.文本可以划分为，单词、字符（abcdefg…）、n-gram等等。4.一般用one-hot编码或者word-embedding将单词处理为数值张量。5.one-hot编码简单，但是没有结构，任何两个单词之间的距离为2\sq
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。