pytorch 文本分词后,将文本使用张量进行表示

张量表示词语

实际就是word_embedding

["人生", "该", "如何", "起头"]

# 每个词对应矩阵中的一个向量
[[1.32, 4,32, 0,32, 5.2],
[3.1, 5.43, 0.34, 3.2],
[3.21, 5.32, 2, 4.32],
[2.54, 7.32, 5.12, 9.54]]

one-hot编码

独热编码
[“人生”, “该”, “如何”, “起头”]
四个词语
那么进行独热编码后的维度就是
4*4
【【1,0,0,0】,
【0,1,0,0】,
【0,0,1,0】,
【0,0,0,1】

# 导入用户对象保存和加载的包
import joblib
# 导入kears中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer

# 初始化一个词汇表
vocab = {"ZJL", "CYX", "WLH", "LZS", "WYF", "LH"}

# 实例化一个词汇映射器
t = Tokenizer(num_words=None, char_level=False)

# 在映射器上拟合现有的词汇表
t.fit_on_texts(vocab)

# 循环遍历词汇表,将每一个单词映射为独热编码
for i in vocab:
    zero_list = [0] * len(vocab)
    token_index = t.texts_to_sequences([i])[0][0] - 1
    zero_list[token_index] = 1
    print("{:5s}: {}".format(i, zero_list))

tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

缺点:
假如词汇表的长度为 n
那么进行独热编码后的词语的维度表就是 n * n
这样就会占用大量的内存,在实际中很少使用

Word2vec

将词汇表示为向量
Word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式
1.CBOW(Continuous bag of words)模式
经过训练后,通过上下文预测单个的词语
2.skipgram模式
经过训练后,通过单个词汇来预测上下文

Word Embedding

  1. 通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间
  2. 广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec,即可认为是word embedding的一种
  3. 广义的就是 将词汇表示为向量
  4. 狭义的word embedding是指在神经网络中加入的embedding层,对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数),这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵
  5. 狭义的就是 神经网络加入embedding层,将输入表示为embedding需要的词向量
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值