Embedding理解与代码实现

最新推荐文章于 2024-08-03 08:00:00 发布

海晨威

最新推荐文章于 2024-08-03 08:00:00 发布

阅读量2.9w

点赞数 24

分类专栏：深度学习文章标签： embedding DNN

本文链接：https://blog.csdn.net/songyunli1111/article/details/85100616

版权

本文介绍了Embedding的概念，将其视为一种从语义空间到向量空间的映射，并通过一个基于Keras的文本情感分类问题展示了Embedding的训练过程。讲解了Keras Embedding层的关键参数，如input_dim、output_dim和input_length，并通过代码示例解释了如何在模型中使用Embedding层进行训练，同时提到了预训练的词向量在分类任务中的应用。

摘要由CSDN通过智能技术生成

Embedding 字面理解是 “嵌入”，实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本在语义空间的关系，如语义接近的两个词汇在向量空间中的位置也比较接近。

下面以一个基于Keras的简单的文本情感分类问题为例解释Embedding的训练过程：

首先，导入Keras的相关库

from keras.layers import Dense, Flatten, Input
from keras.layers.embeddings import Embedding
from keras.models import Model
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import one_hot
import numpy as np

给出文本内容和label

# define documents
docs = ['Well done!',
        'Good work',
        'Great effort',
        'nice work',
        'Excellent!',
        'Weak',
        'Poor effort!',
        'not good',
        'poor work',
        'Could have done better.']
# define class labels
labels = [1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

然后将文本编码成数字格式并padding到相同长度

# integer encode the documents
vocab_size = 50
encoded_docs = [one_hot(d, vocab_size) for d in docs]   
print(encoded_docs)

# pad documents to a max length of 4 words
max_length = 4
padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='post')
print(padded_docs)

上面两个print输出如下，每次运行得到的数字可能会不一样，但同一个单词对应相同的数字。上述one_hot编码映射到[1,n]，不包括0，n为上述的vocab_size，为估计的词汇表大小。然后padding到最大的词汇长度，用0向后填充，这也是为什么前面one-hot不会映射到0的原因。

[[41, 13], [14, 5], [11, 19], [30, 5], [47], [16], [37,

最低0.47元/天解锁文章

海晨威

关注

24
点赞
踩
112

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录