谢邀。没实现过,但可以讲一下思路。
1. 视频数据维度
视频数据是一个5D tensor,shape是:(视频数, 帧数, 长, 宽, 通道数)。第1维指的是每个mini batch你要训练多少个视频,有多少个视频就对应多少个label。第2维指的是每个视频中采样了多少帧,有多少帧就有多少图片。第345维就分别是每张图片的长宽以及通道数了。
2. TimeDistributed(TD) 层的作用
TD层的作用是把layer作用于同一视频样本中的所有不同时间点。这句话要分开来分析,首先“同一视频样本”指的是5D tensor中第1维的每个视频样本,“不同时间点”指的是同一样本中的不同帧。假设5D tensor shape是X(64, 60, 128, 128, 3),TD layer是TimeDistributed(Conv2d(3, 64)),那么这个TD层就会把这个2d卷积同时作用到X第2维的所有图片(60帧)当中。而作用在这60帧图片中的卷积层,你可以理解为每帧图片都分别输入到一个卷积层,总共有60个卷积层,而且这60个卷积层的参数是相同的。为什么要有60个卷积层?因为假如只有一个卷积层的话,你就只有一个输出,有60个独立卷积层就有60个输出,这就是TD层名字的由来:时间分布层,对每个时间点的数据作相同的处理。
3. LSTM的输入
LSTM和RNN基本都是同时输入不同时间点的“状态”进来,那么你在上面的CNN经过TD层得到同一样本的不同时间点的特征之后,假设此时输入的特征为:(64, 60, 512),第一维就是不同的视频样本,第二维就是不同时间点,第三维就是对应时间点的特征(状态)。
参考资料:When and How to use TimeDistributedDense-github keras issue,请看最高赞EdwardRaff的回答,你就能理解TD为何能做到one to many和many to many映射了。
最后给自己打个广告,安利下我的专栏,Keras花式工具箱 ,会不定期更新keras的花式使用文章。