tensorflow 单词嵌入向量

最新推荐文章于 2024-07-21 08:45:00 发布

桂花很香,旭很美

最新推荐文章于 2024-07-21 08:45:00 发布

阅读量974

点赞数 1

分类专栏： TensorFlow

原文链接：https://tensorflow.google.cn/tutorials/text/word_embeddings

版权

TensorFlow 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

本文探讨了机器学习中将文本转换为数字向量的三种策略：独热编码、整数编码和词嵌入。独热编码虽效率低，整数编码缺乏语义关系，而词嵌入则高效且能捕捉相似性。通过Keras实例演示了如何使用WordEmbedding层训练情感分类器，展示了嵌入向量的训练和可视化过程。

摘要由CSDN通过智能技术生成

用数字表示文本

机器学习模型将向量（数字数组）作为输入。在处理文本时，我们必须先想出一种策略，将字符串转换为数字（或将文本“向量化”），然后再其馈入模型。

实现这一目标的三种策略：

独热编码

作为第一个想法，可以对词汇表中的每个单词进行“独热”编码。考虑这样一句话：“The cat sat on the mat”。这句话中的词汇（或唯一单词）是（cat、mat、on、sat、the）。为了表示每个单词，我们将创建一个长度等于词汇量的零向量，然后在与该单词对应的索引中放置一个 1。

为了创建一个包含句子编码的向量，我们可以将每个单词的独热向量连接起来。

要点：这种方法效率低下。一个独热编码向量十分稀疏（这意味着大多数索引为零）。假设我们的词汇表中有 10,000 个单词。为了对每个单词进行独热编码，我们将创建一个其中 99.99% 的元素都为零的向量。

用一个唯一的数字编码每个单词

第二种方法是使用唯一的数字来编码每个单词。继续上面的示例，可以将 1 分配给“cat”，将 2 分配给“mat”，依此类推。然后，我们可以将句子“The cat sat on the mat”编码为一个密集向量，例如 [5, 1, 4, 3, 5, 2]。这种方法是高效的。现在，我们有了一个密集向量（所有元素均已满），而不是稀疏向量。

但是，这种方法有两个缺点：

整数编码是任意的（它不会捕获单词之间的任何关系）。
对于要解释的模型而言，整数编码颇具挑战。例如，线性分类器针对每个特征学习一个权重。由于任何两个单词的相似性与其编码的相似性之间都没有关系，因此这种特征权重组合没有意义。

单词嵌入向量

单词嵌入向量为我们提供了一种使用高效、密集表示的方法，其中相似的单词具有相似的编码。重要的是不必手动指定此编码。嵌入向量是浮点值的密集向量（向量的长度是可以指定的参数）。它们是可以训练的参数（模型在训练过程中学习的权重，与模型学习密集层权重的方法相同），无需手动为嵌入向量指定值。8 维的单词嵌入向量（对于小型数据集）比较常见，而在处理大型数据集时最多可达 1024 维。维度更高的嵌入向量可以捕获单词之间的细粒度关系，但需要更多的数据来学习。Word Embedding矩阵给每个单词分配一个固定长度的向量表示，这个长度可以自行设定，比如300，实际上会远远小于字典长度（比如10000）。而且两个单词向量之间的夹角值可以作为他们之间关系的一个衡量。如下表示：

Word Embedding表示法

通过简单的余弦函数，我们就可以计算两个单词之间的相关性，简单高效：

import tensorflow as tf
from icecream import ic
from tensorflow import keras
from tensorflow.keras import layers
#1 导入数据
import tensorflow_datasets as tfds
tfds.disable_progress_bar()
#2 使用嵌入向量层
'''
可以将嵌入向量层理解为一个从整数索引（代表特定单词）映射到密集向量（其嵌入向量）的查找表。嵌入向量的维数（或宽度）是一个参数，
可以试验它的数值，以了解多少维度适合问题，这与试验密集层中神经元数量的方式非常相似。
'''
embedding_layer = layers.Embedding(1000, 5)
'''
创建嵌入向量层时，嵌入向量的权重会随机初始化（就像其他任何层一样）。在训练过程中，通过反向传播来逐渐调整这些权重。
训练后，学习到的单词嵌入向量将粗略地编码单词之间的相似性（因为它们是针对训练模型的特定问题而学习的）。
'''
#如果将整数传递给嵌入向量层，结果会将每个整数替换为嵌入向量表中的向量：
result = embedding_layer(tf.constant([1,2,3]))
ic(result.numpy())

运行结果：

ic| result.numpy(): array([[-0.04286907,  0.01746731,  0.03539313, -0.04714948,  0.01741666],
                           [-0.0271346 , -0.04651893,  0.03715916,  0.02202106, -0.04117215],
                           [-0.00178969,  0.01628102,  0.03589281,  0.01006144,  0.03929297]],
                          dtype=float32)

'''
对于文本或序列问题，嵌入向量层采用整数组成的 2D 张量，其形状为 (samples, sequence_length)，
其中每个条目都是一个整数序列。它可以嵌入可变长度的序列。您可以在形状为 (32, 10)（32 个长度为 10 的序列组成的批次）或 
(64, 15)（64 个长度为 15 的序列组成的批次）的批次上方馈入嵌入向量层。
'''
#返回的张量比输入多一个轴，嵌入向量沿新的最后一个轴对齐。向其传递 (2, 3) 输入批次，输出为 (2, 3, N)
#result = embedding_layer(tf.constant([[0,1,2],[3,4,5]]))
#ic(result.shape)
#ic| result.shape: TensorShape([2, 3, 5]),这里的5，是之前embeddiing（1000,5)层设置的5维参数
'''
当给定一个序列批次作为输入时，嵌入向量层将返回形状为 (samples, sequence_length, embedding_dimensionality) 的 3D 浮点张量。
为了从可变长度的序列转换为固定表示，有多种标准方法。可以先使用 RNN、注意力或池化层，然后再将其传递给密集层。下面使用池化，因为它最简单。
以后使用 RNN 进行文本分类是一个不错的选择。
'''

从头开始学习嵌入向量

#基于 IMDB 电影评论来训练情感分类器
import tensorflow as tf
from icecream import ic
from tensorflow import keras
from tensorflow.keras import layers

#1 导入数据
import tensorflow_datasets as tfds
tfds.disable_progress_bar()#Disabled Tqdm progress bar.
(train_data, test_data), info = tfds.load(
    'imdb_reviews/subwords8k',
    split = (tfds.Split.TRAIN, tfds.Split.TEST),
    with_info=True, as_supervised=True)


#2 获取编码器 (tfds.features.text.SubwordTextEncoder)，并快速浏览词汇表。
#词汇表中的“”代表空格。请注意词汇表如何包含完整单词（以“”结尾）以及可用于构建更大单词的部分单词：
encoder = info.features['text'].encoder
ic(encoder.subwords[:20])


#3 电影评论的长度可以不同。我们将使用 padded_batch 方法来标准化评论的长度。
train_batches = train_data.shuffle(1000).padded_batch(10)
#3.1 打乱数据 shuffle(1000)
# 从train_data数据集中按顺序抽取buffer_size(1000)个样本放在buffer中，然后打乱buffer中的样本
# buffer中样本个数不足buffer_size，继续从data数据集中安顺序填充至buffer_size，
# 此时会再次打乱
test_batches = test_data.shuffle(1000).padded_batch(10)
'''
dataset.shuffle作用是将数据进行打乱操作，传入参数为buffer_size，改参数为设置“打乱缓存区大小”，
也就是说程序会维持一个buffer_size大小的缓存，每次都会随机在这个缓存区抽取一定数量的数据
dataset.batch作用是将数据打包成batch_size
dataset.repeat作用就是将数据重复使用多少epoch
'''
'''
padded_batch(
    batch_size, padded_shapes=None, padding_values=None, drop_remainder=False
)
注意参数drop_remainder用来约束最后一个batch是不是要丢掉，当这个batch样本数少于batch_size时，
比如batch_size = 3,最后一个batch只有2个样本。默认是不丢掉
padded_batch是非常见的一个操作，比如对一个变长序列，通过padding操作将每个序列补成一样的长度。
特点：
1）padded_shapes使用默认值或者设置为-1，那么每个batch padding后每个维度就是跟这个者个batch的样本各个维度最大值保持一致
2）当shape固定为特定的size时，那么每个batch的shape就是一样的。
'''
#导入时，评论的文本是整数编码的（每个整数代表词汇表中的特定单词或单词部分）。
#请注意尾随零，因为批次会填充为最长的示例。
#train_batch, train_labels = next(iter(train_batches))
#train_batch.numpy()
'''
array([[5739,   46,  674, ...,    0,    0,    0],
       [ 274, 2732, 1289, ...,    0,    0,    0],
       [  19,  118,  874, ...,    0,    0,    0],
       ...,
       [ 324,   12,  118, ...,    0,    0,    0],
       [  12,   31,  165, ...,    0,    0,    0],
       [ 131,  196, 7968, ...,    0,    0,    0]])
'''


#4 创建一个简单模型
'''
使用 Keras 序列式 API 定义模型。在这种情况下，它是一个“连续词袋”样式的模型。
小心：此模型不使用遮盖，而是使用零填充作为输入的一部分，因此填充长度可能会影响输出。
'''
embedding_dim=16
model = keras.Sequential([
  #嵌入向量层将采用整数编码的词汇表，并查找每个单词索引的嵌入向量。在模型训练时会学习这些向量。
  #向量会向输出数组添加维度。得到的维度为：(batch, sequence, embedding)。
  layers.Embedding(encoder.vocab_size, embedding_dim),
  #接下来，通过对序列维度求平均值，GlobalAveragePooling1D 层会返回每个样本的固定长度输出向量。
  #这让模型能够以最简单的方式处理可变长度的输入。
  layers.GlobalAveragePooling1D(),
  #此固定长度输出向量通过一个包含 16 个隐藏单元的完全连接（密集）层进行流水线传输。
  layers.Dense(16, activation='relu'),
  #最后一层与单个输出节点密集连接。利用 Sigmoid 激活函数，得出此值是 0 到 1 之间的浮点数，表示评论为正面的概率（或置信度）。
  layers.Dense(1)
])

#model.summary()
'''
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, None, 16)          130960    
_________________________________________________________________
global_average_pooling1d (Gl (None, 16)                0         
_________________________________________________________________
dense (Dense)                (None, 16)                272       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 17        
=================================================================
Total params: 131,249
Trainable params: 131,249
Non-trainable params: 0
_________________________________________________________________
'''


#5 编译和训练模型
model.compile(optimizer='adam',
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

history = model.fit(
    train_batches,
    epochs=10,
    validation_data=test_batches, validation_steps=20)


#6 绘制训练准确率和验证准确率图
import matplotlib.pyplot as plt

history_dict = history.history

acc = history_dict['accuracy']
val_acc = history_dict['val_accuracy']
loss=history_dict['loss']
val_loss=history_dict['val_loss']

epochs = range(1, len(acc) + 1)

plt.figure(figsize=(12,9))
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

plt.figure(figsize=(12,9))
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.ylim((0.5,1))
plt.show()

#7 检索学习的嵌入向量
#检索在训练期间学习的单词嵌入向量。这将是一个形状为 (vocab_size, embedding-dimension) 的矩阵。
e = model.layers[0]
weights = e.get_weights()[0]
#print(weights.shape) # shape: (vocab_size, embedding_dim)
#(8185, 16)
#将权重写入磁盘。要使用 Embedding Projector，我们将以制表符分隔的格式上传两个文件：一个向量文件（包含嵌入向量）和一个元数据文件（包含单词）。
import io
encoder = info.features['text'].encoder
out_v = io.open('vecs.tsv', 'w', encoding='utf-8')
out_m = io.open('meta.tsv', 'w', encoding='utf-8')
for num, word in enumerate(encoder.subwords):
  vec = weights[num+1] # skip 0, it's padding.
  out_m.write(word + "\n")
  out_v.write('\t'.join([str(x) for x in vec]) + "\n")
out_v.close()
out_m.close()


#8 可视化嵌入向量
'''
为了可视化嵌入向量，我们将它们上传到 Embedding Projector。
打开 Embedding Projector:http://projector.tensorflow.org/（也可以在本地 TensorBoard 实例中运行）。
    点击“Load data”。
    上传我们在上面创建的两个文件：vecs.tsv 和 meta.tsv。
将显示已训练的嵌入向量。可以搜索单词以查找其最邻近。例如，尝试搜索“beautiful”，可能会看到“wonderful”等相邻单词。
注：结果可能会略有不同，具体取决于训练嵌入向量层之前如何随机初始化权重。
注：可以试验性地使用更简单的模型来生成更多可解释的嵌入向量。尝试删除 Dense(16) 层，重新训练模型，然后再次可视化嵌入向量。
'''

桂花很香,旭很美

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tensorflow 单词嵌入向量

用数字表示文本机器学习模型将向量（数字数组）作为输入。在处理文本时，我们必须先想出一种策略，将字符串转换为数字（或将文本“向量化”），然后再其馈入模型。实现这一目标的三种策略：独热编码作为第一个想法，可以对词汇表中的每个单词进行“独热”编码。考虑这样一句话：“The cat sat on the mat”。这句话中的词汇（或唯一单词）是（cat、mat、on、sat、the）。为了表示每个单词，我们将创建一个长度等于词汇量的零向量，然后在与该单词对应的索引中放置一个 1。为了创建一个包含
复制链接

扫一扫

专栏目录