pytorch dataset和dataloader使用实例（seq2seq）

最新推荐文章于 2024-03-23 15:46:00 发布

kunAUGUST

最新推荐文章于 2024-03-23 15:46:00 发布

阅读量830

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/kunAUGUST/article/details/107168454

版权

场景：英译中，数据集包括训练集14533行，前面是英文后面是中文，中间用\t隔开
在这里插入图片描述
先明确我们的任务：
1 导入数据集，把所用句子加上‘BOS’和‘EOS’，中文和英文分开放在一个二维list中，里面嵌套的每个list表示一个句子，元素是单词。
2 建立词典，其中’unk’=0，'pad’=1
3 将单词根据词典编码，并按en中句子的长度排序
4 分成batch,记录每一个batch的行索引
5 记录每一个batch中的句子
6 将每一个batch中的句子填充成一样的长度，不足补0，并记录每个句子的原始长度
1.

def load_data(file):
    with open(file, 'r', encoding='utf-8') as f:
        # print(type(f))
        en = []
        cn = []
        for line in f:
            line = line.strip().split('\t')
            en.append(['BOS'] + [c for c in line[0].split()] + ['EOS'])
            cn.append(['BOS'] + [c for c in jieba.cut(line[1])] + ['EOS'])
        return en, cn

MAX_VOCAB_SIZE = 50000


def build_dict(text):
    vocab = Counter()
    for seq in

最低0.47元/天解锁文章

kunAUGUST

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
pytorch dataset和dataloader使用实例（seq2seq）

场景：英译中，数据集包括训练集14533行，前面是英文后面是中文，中间用\t隔开先明确我们的任务：1 导入数据集，把所用句子加上‘BOS’和‘EOS’，中文和英文分开放在一个二维list中，里面嵌套的每个list表示一个句子，元素是单词。2 建立词典，其中’unk’=0，'pad’=13 将单词根据词典编码，并按en中句子的长度排序4 分成batch,记录每一个batch的行索引5 记录每一个batch中的句子6 将每一个batch中的句子填充成一样的长度，不足补0，并记录每个句子的原始长度
复制链接

扫一扫