nmt模型源文本词项序列_TensorFlow NMT的数据处理过程

在tensorflow/nmt项目中,训练数据和推断数据的输入使用了新的Dataset API,应该是tensorflow 1.2之后引入的API,方便数据的操作。如果你还在使用老的Queue和Coordinator的方式,建议升级高版本的tensorflow并且使用Dataset API。

本教程将从训练数据和推断数据两个方面,详解解析数据的具体处理过程,你将看到文本数据如何转化为模型所需要的实数,以及中间的张量的维度是怎么样的,batch_size和其他超参数又是如何作用的。

训练数据的处理

先来看看训练数据的处理。训练数据的处理比推断数据的处理稍微复杂一些,弄懂了训练数据的处理过程,就可以很轻松地理解推断数据的处理。

训练数据的处理代码位于nmt/utils/iterator_utils.py文件内的get_iterator函数。

函数的参数

我们先来看看这个函数所需要的参数是什么意思:

参数解释

src_dataset

源数据集

tgt_dataset

目标数据集

src_vocab_table

源数据单词查找表,就是个单词和int类型数据的对应表

tgt_vocab_table

目标数据单词查找表,就是个单词和int类型数据的对应表

batch_size

批大小

sos

句子开始标记

eos

句子结尾标记

random_seed

随机种子,用来打乱数据集的

num_buckets

桶数量

src_max_len

源数据最大长度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值