张量表示词语
实际就是word_embedding
["人生", "该", "如何", "起头"]
# 每个词对应矩阵中的一个向量
[[1.32, 4,32, 0,32, 5.2],
[3.1, 5.43, 0.34, 3.2],
[3.21, 5.32, 2, 4.32],
[2.54, 7.32, 5.12, 9.54]]
one-hot编码
独热编码
[“人生”, “该”, “如何”, “起头”]
四个词语
那么进行独热编码后的维度就是
4*4
【【1,0,0,0】,
【0,1,0,0】,
【0,0,1,0】,
【0,0,0,1】
】
# 导入用户对象保存和加载的包
import joblib
# 导入kears中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer
# 初始化一个词汇表
vocab = {"ZJL", "CYX", "WLH", "LZS", "WYF", "LH"}
# 实例化一个词汇映射器
t = Tokenizer(num_words=None, char_level=False)
# 在映射器上拟合现有的词汇表
t.fit_on_texts(vocab)
# 循环遍历词汇表,将每一个单词映射为独热编码
for i in vocab:
zero_list = [0] * len(vocab)
token_index = t.texts_to_sequences([i])[0][0] - 1
zero_list[token_index] = 1
print("{:5s}: {}".format(i, zero_list))
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)
缺点:
假如词汇表的长度为 n
那么进行独热编码后的词语的维度表就是 n * n
这样就会占用大量的内存,在实际中很少使用
Word2vec
将词汇表示为向量
Word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式
1.CBOW(Continuous bag of words)模式
经过训练后,通过上下文预测单个的词语
2.skipgram模式
经过训练后,通过单个词汇来预测上下文
Word Embedding
- 通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间
- 广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec,即可认为是word embedding的一种
- 广义的就是 将词汇表示为向量
- 狭义的word embedding是指在神经网络中加入的embedding层,对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数),这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵
- 狭义的就是 神经网络加入embedding层,将输入表示为embedding需要的词向量