seq2seq logits和labels维度不一致问题

最新推荐文章于 2021-09-23 15:32:14 发布

zcancandice

最新推荐文章于 2021-09-23 15:32:14 发布

阅读量2.4k

点赞数

分类专栏： tensorflow

本文链接：https://blog.csdn.net/weixin_38889448/article/details/80438556

版权

本文探讨了在seq2seq模型的decode阶段，由于trainingHelper的sequence_length设置导致的logits和labels维度不匹配问题。关键在于理解training_logits的形状(batch_size * target_sequence_length * decoder_embedding_size)需要与targets的形状(batch_size * target_sequence_length)在第二维度上保持一致。解决此问题的方法是在生成batch时确保targets的sequence_length保持一致。

摘要由CSDN通过智能技术生成

在decode阶段，训练结果的维度通常由trainingHelper中的sequence_length指定。

training_logits的shape为batch_size*target_sequence_length*decoder_embeding_size,

其中第二维度是每批target数据的固定长度，

embeding_size是转换后的解码层维度，

即decoder_embed_input向量的列维

  with tf.variable_scope("decode"):
        # 得到help对象
        training_helper = tf.contrib.seq2seq.TrainingHelper(inputs=decoder_embed_input,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zcancandice

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【NLP】一文理解Seq2Seq

sikh_0529的博客

02-21

9657

Seq2Seq技术，全称Sequence to Sequence，该技术突破了传统的固定大小输入问题框架，开通了将经典深度神经网络模型（DNNs）运用于在翻译，文本自动摘要和机器人自动问答以及一些回归预测任务上,并被证实在英语－法语翻译、英语－德语翻译以及人机短问快答的应用中有着不俗的表现。

介绍 Seq2Seq 的基本概念，然后用一些具体例子展示 Seq2Seq 模型的工作原理。最后通过 TensorFlow 框架对 Seq2Seq 模型的实现做一个简单的总结

最新发布

程序员光剑

10-14

710

作者：禅与计算机程序设计艺术 1.背景介绍序列到序列（Seq2Seq）模型是一种机器学习方法，它可以用来处理时序数据，比如语言建模、机器翻译等。与其他类型机器学习模型相比，Seq2Seq 模型可以同时关注输入序列和输出序列中的信息。输入序列通常是一个句子或一个序列，输出序列则是一个翻译后的句子或者

1 条评论您还未登录，请先登录后发表或查看评论

logits和labels最后一个维度匹配不上，求大神指教！

shylsh的博客

12-08

871

这几天在运行一个论文中别人改进的3D U-net，原代码是解决多尺度输入的4分类问题。我想把它改成单尺度的二分类也就是分割，但是在运行的时候，卡在了logist和label最后一个维度不匹配的错误上，希望大神可以救救孩子吧！(错误如下图) ...

pytorch gather_torch.nn.DataParallel中数据Gather的问题：维度不匹配

weixin_39557583的博客

11-22

571

Pytorch中的多GPU非常好用，一句话就能搞定：self.model = torch.nn.DataParallel(self.model)。然而这两天我做零样本学习中遇到了一个问题始终无法解决，就是说单GPU可以跑，一旦使用多GPU，就会出现：RuntimeError: Gather got an input of invalid size: got [24, 10, 448，448], b...

[知乎作答]·神经网络对于输入的维度不一致的处理

简明AI工作室

06-02

1万+

[知乎作答]·神经网络对于输入的维度不一致的处理本文内容选自笔者在知乎上的一个作答，总结下来作为神经网络对于输入的维度不一致的处理教程。。 1.问题描述神经网络中，如果每次输入的维度不一致应该怎么处理？神经网络中，如果每次输入的维度不一致应该怎么处理？假设一队人，有时候这队人有三个（3个输入神经元），有时候这堆人有四个（四个输入）。 2.笔者作答由...

logits and labels must be broadcastable: logits_size=[131072,9] labels_size=[131072,8]的错误

cuiy24的博客

09-07

5011

提示的错误为logits和标签必须是可广播的：logits_size = [131072,9] labels_size = [131072,8]，我理解的大致意思就是预测结果与标签尺寸不匹配，无法进行计算loss。这是我在debug到train_one_epoch以下部分时，出现了问题。 summary, step, _, loss_val, pred_val, _ = sess.run( [ ops["merged"], .

tensorflow: 交叉熵

qq_25987491的博客

06-12

295

按照tensorflow官方教程搭建好的一个model中的loss函数应该是采用如下的计算方法： cross_entropy = -tf.reduce_sum(y_*tf.log(y)) 其中，这个公式就是按照标准的交叉熵函数进行定义的，比较简陋，去掉了常数项系数，但是没改变总体的性质，所以算是基本交叉熵函数。但是呢，tensorflow系统中提供了计算交叉熵函数的接口。以下这两个函数...

tf.contrib.seq2seq.sequence_loss 中logit和label shape不匹配报错

qq_42815385的博客

03-15

3536

在训练seq2seq网络时，单个gpu没有问题，但是当处理多个gpu并行时，问题来了：在train时，总会报错： InvalidArgumentError (see above for traceback): logits and labels must have the same first dimension, got logits shape [12,737] and labels sha...

seq2seq

shichaog的专栏

06-12

3369

seq2seq是通用编码器-解码器框架（encoder-decoder framework），可以用在机器翻译，文本摘要，会话建模，图像描述。源码https://github.com/google/seq2seq tensorflow 中的实现代码如下： tensorflow/tensorflow/python/ops/seq2seq.py基本模型基于论文https://arxiv.org/pd

NLP算法（四）- seq2seq

anycall201的博客

12-28

398

1 背景 RNN模型虽然能够将语义信息在序列间传递，但其输入和输出长度必须相同。因此RNN模型在解决如：机器翻译、摘要生成等问题时比较束手无策。因此在这基础上，Seq2Seq模型被提出，用以解决这种由一个序列产生另一个序列的问题。 2 模型结构 Seq2Seq模型包含两个部分，编码器(Encoder) 和解码器(Decoder)。与RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度。 Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decode

keras报错： ValueError: logits and labels must have the same shape

qsx123432的博客

09-23

1万+

keras报错：ValueError: logits and labels must have the same shape问题背景问题原因解决办法整体代码问题背景在一步一步搭建文本情感分类器的过程时，将数据处理成向量的形式；之后送入到 MLP模型中进行拟合训练；发生错误： ValueError: logits and labels must have the same shape ((None, 1) vs (None, 2)) 问题原因原因： logits 和 labels 需要有相同的

tf的softmax交叉熵计算中的logits的含义

qq314000558的专栏

09-06

9716

tf.nn.softmax_cross_entropy_with_logits函数是TensorFlow中常用的求交叉熵的函数。其中函数名中的“logits”是个什么意思呢？它时不时地困惑初学者，下面我们就讨论一下。 tf.nn.softmax_cross_entropy_with_logits( _sentinel=None, labels=None, ...

Tensorflow中,什么是Logits,它和我们常用的Feature有什么不同？

a2806005024的专栏

11-16

9421

Tensorflow中,什么是Logits,它和我们常用的Feature有什么不同？在tensorflow中经常会用到三个函数 tf.nn.softmax_cross_entropy_with_logits(label = one_hot_label, logits = logits) tf.nn.softmax_cross_entropy(label = one_hot_label, logi...

Tensorflow一些常用基本概念与函数（1）