神经网络词向量编码简单解析

最新推荐文章于 2022-12-27 10:18:53 发布

蔚蓝的珊瑚海_xdcaxy2013

最新推荐文章于 2022-12-27 10:18:53 发布

阅读量205

点赞数

分类专栏：工作随记文章标签：自动驾驶自然语言处理

本文链接：https://blog.csdn.net/sinat_28729797/article/details/117417860

版权

word2Vec GPT BERT 预训练模型自然语言处理

关键词由CSDN通过智能技术生成

工作随记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

# batch_size =2,seq_len =4,
words = ['I love china people', 'china people is kind']
#定义词典
wordDict = {'I': 0, 'love': 1, 'china': 2, 'people': 3, 'is': 4, 'kind': 5}
#向量化
wordVec = [[wordDict[word] for word in line.split()] for line in words]
#变为torch tensor
wordVec = torch.tensor(wordVec, dtype=torch.long)
embeddingSize = 128
embedding = nn.Embedding(len(wordDict.keys()), embeddingSize)
# wordsEmbedding 为[batch_size,seq_len,embedding_size]结构
wordsEmbedding = embedding(wordVec)
print(wordsEmbedding.size())

上面是简单的word2Vec例子，相对于现在流行的GPT,以及BERT系列，可以作为baseline