lstm的一个语言模型

这篇博客记录了作者使用LSTM模型训练一个基于小说《重生后四个哥哥都团宠我.txt》的语言模型的过程。通过代码学习,得出了一系列有趣的结果。
摘要由CSDN通过智能技术生成

数据集:一本叫重生后四个哥哥都团宠我.txt的小说,代码是抄别人的,纯属用于记录学习过程

import torchtext
from torchtext import data
from torchtext.vocab import Vectors
import torch.nn as nn
import torch
from sklearn.utils import shuffle

from torchtext_practise.pra3class import RNNModel
import jieba
corpus_path=r"D:\torchtext_practise\重生后四个哥哥都团宠我.txt"


BATCH_SIZE = 64
EMBEDDING_SIZE = 650
MAX_VOCAB_SIZE = 50000
def chinese_tokenizer(text):
    return [tok for tok in jieba.lcut(text)]
TEXT = data.Field(sequential=True, tokenize=chinese_tokenizer)
# 构建Dataset数据集
train = torchtext.datasets.LanguageModelingDataset(corpus_path, text_field=TEXT)
TEXT.build_vocab(train)
train_iter=data.BPTTIterator(dataset=train, batch_size=64, bptt_len=32)
it = iter(train_iter)
batch = next(it)
print(" ".join([TEXT.vocab.itos[i] for i in batch.text[:,0].data]))
print(" ".join([TEXT.vocab.itos[i] for i in batch.target[:,0].data]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值