pytorch 文本分词后，将文本使用张量进行表示

最新推荐文章于 2023-04-12 16:19:00 发布

gggggg159753asda

最新推荐文章于 2023-04-12 16:19:00 发布

阅读量418

点赞数

分类专栏： pytorch学习文章标签： pytorch python 机器学习

本文链接：https://blog.csdn.net/qq_39753950/article/details/125772905

版权

pytorch学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

张量表示词语

实际就是word_embedding

["人生", "该", "如何", "起头"]

# 每个词对应矩阵中的一个向量
[[1.32, 4,32, 0,32, 5.2],
[3.1, 5.43, 0.34, 3.2],
[3.21, 5.32, 2, 4.32],
[2.54, 7.32, 5.12, 9.54]]

one-hot编码

独热编码
[“人生”, “该”, “如何”, “起头”]
四个词语
那么进行独热编码后的维度就是
4*4
【【1,0，0,0】，
【0,1，0,0】，
【0,0，1,0】，
【0,0，0,1】
】

# 导入用户对象保存和加载的包
import joblib
# 导入kears中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer

# 初始化一个词汇表
vocab = {"ZJL", "CYX", "WLH", "LZS", "WYF", "LH"}

# 实例化一个词汇映射器
t = Tokenizer(num_words=None, char_level=False)

# 在映射器上拟合现有的词汇表
t.fit_on_texts(vocab)

# 循环遍历词汇表，将每一个单词映射为独热编码
for i in vocab:
    zero_list = [0] * len(vocab)
    token_index = t.texts_to_sequences([i])[0][0] - 1
    zero_list[token_index] = 1
    print("{:5s}: {}".format(i, zero_list))

tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

缺点：
假如词汇表的长度为 n
那么进行独热编码后的词语的维度表就是 n * n
这样就会占用大量的内存，在实际中很少使用

Word2vec

将词汇表示为向量
Word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式
1.CBOW(Continuous bag of words)模式
经过训练后，通过上下文预测单个的词语
2.skipgram模式
经过训练后，通过单个词汇来预测上下文

Word Embedding

通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间
广义的word embedding包括所有密集词汇向量的表示方法，如之前学习的word2vec，即可认为是word embedding的一种
广义的就是将词汇表示为向量
狭义的word embedding是指在神经网络中加入的embedding层，对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数)，这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵
狭义的就是神经网络加入embedding层，将输入表示为embedding需要的词向量