RNN
文章平均质量分 54
LS_learner
业精于勤,荒于嬉;
行成于思,毁于随。
展开
-
每次迭代,loss的波动很大的解决办法
每次迭代,loss的波动很大,有如下几方面:(1)学习率选取较大;(2)在loss不再下降的时候降低学习率;(3)每个epoch训练之前,对数据进行重新打乱,如果你的 batch 的内容和顺序都是固定的,可能造成模型 overfit 这个顺序;(4)各个 batch 的 loss 有不同是正常的,但如果波动太大,可能说明你的各个 batch 不是 homogeneous 的(即内容差别太大),不能代表整体数据。可以试试加大 batch size。总结就是:当loss不下降时,降低学习率,一般降低原创 2021-03-09 20:07:09 · 22493 阅读 · 0 评论 -
CRNN序列图像识别过程(二)
上图中纵坐标是可能出现的字符,横坐标是输出的序列,上图表示:输出结果要求为zoo时,在网络输出的序列长度为9的前提下,网络可以输出的序列情况。从图中可以看出,第一个出现的字符为空格或者z,如果第一个字符为空格,那么第二个出现的字符可以为空格或者z,箭头表示下一个可以出现的字符情况,比如,网络输出的序列可以为:空格空格空格空格空格zo空格o或者zz空格o空格o空格空格空格最终经过转录,可以得到zoo在此说明一下,在网络中,每一个序列字符的输出都是有概率的,比如,在 空格空格空格空格空格zo空格o这条输.原创 2020-08-20 22:57:02 · 486 阅读 · 0 评论 -
CRNN序列图像识别过程(一)
CRNN是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。文章认为文字识别是对序列的预测方法,所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。 说白了就是CNN+RNN+CTC的结构。CRNN 全称为 Convolutional Recurrent Neural Network,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问原创 2020-08-16 13:47:27 · 4248 阅读 · 0 评论 -
单层LSTM和多层LSTM的输入与输出
单层LSTM的输入与输出上图是单层LSTM的输入输出结构图。其实它是由一个LSTM单元的一个展开,如下图所示:所以从左到右的每个LSTM Block只是对应一个时序中的不同的步。在第一个图中,输入的时序特征有S个,长度记作:seq_len,每个特征是一个C维的向量,长度记作:input_size。而Initial State是LSTM的隐藏状态和内部状态的一个输入的初始化。分别记作:h0和c0。输出可以通过设置,来决定是输出所有时序步的输出,还是只输出最后一个时序步的输出。Final_State原创 2020-06-10 11:44:09 · 31552 阅读 · 22 评论