语言模型-pytorch

椰椰子吖

已于 2022-03-20 16:10:55 修改

阅读量1.7k

点赞数

文章标签： pycharm

于 2022-03-20 13:50:02 首次发布

本文链接：https://blog.csdn.net/m0_52819003/article/details/123611888

版权

本文介绍了使用PyTorch构建语言模型的详细过程，涵盖了从数据预处理到模型训练的关键步骤，适合对深度学习和自然语言处理感兴趣的读者。

摘要由CSDN通过智能技术生成


#语言模型和数据集

import matplotlib.pyplot as plt
import random
import torch
from d2l import torch as d2l

tokens = d2l.tokenize(d2l.read_time_machine())
corpus = [token for line in tokens for token in line]
vocab = d2l.Vocab(corpus)
# print(vocab.token_freqs[:10])

#二元语法
bigram_tokens = [pair for pair in zip(corpus[:-1],corpus[1:])]
bigram_vocab = d2l.Vocab(bigram_tokens)#token 就是两个words
# print(bigram_vocab.token_freqs[:10])

#三元语法
trigram_tokens = [
    triple for triple in zip(corpus[:-2],corpus[1:-1],corpus[2:])]
trigram_vocab = d2l.Vocab(trigram_tokens)
# print(trigram_vocab.token_freqs[:10])

#画出freqs
freqs = [freq for token,freq in vocab.token_freqs]
bigram_freqs = [freq for token,freq in bigram_vocab.token_freqs]
trigram_freqs = [freq for token,freq in trigram_vocab.token_freqs]
d2l.plot([freqs,bigram_freqs,trigram_freqs],xlabel='token:x',
         ylabel='frequency:n(x)',xscale='log',yscale=&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

椰椰子吖

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言模型-pytorch

#语言模型和数据集import matplotlib.pyplot as pltimport randomimport torchfrom d2l import torch as d2ltokens = d2l.tokenize(d2l.read_time_machine())corpus = [token for line in tokens for token in line]vocab = d2l.Vocab(corpus)# print(vocab.token_freqs[:..
复制链接

扫一扫