递归网络卷积网络结合(CNN+RNN)

1. CNN + RNNCNN卷积神经网络 RNN递归神经网络

1.1 相同点:
  • 都是传统神经网络的扩展 空间和时间扩展
  • 前向计算产生结果,反向计算模型更新
  • 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接
  • 深度和广度注:梯度衰减: CNN ReLU不会衰减,RNN U参数梯度会大于或者小于1
1.2 不同点:
  • CNN空间扩展,神经元与特征卷积; RNN时间扩展,神经元与多个时间输出计算
  • RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出
  • CNN高级深度100+深度,RNN深度有限1.2 组合意义
  • 大量信息同时具备时间空间特性- 带有图像的对话,文本表达更具体
    视频相对图片描述的内容更加完善图片标注: CNN特征提取,用于RNN语句生成
    视频分类: RNN特征提取用于CNN内容分类
    图片问答: CNN特征提取用于对话问答
1.3 组合方式实现
  • 特征提取:LSTM输出,FC层输出
  • 特征合并:Concatenate层,Attention相乘
  • 结果输出:连续语句输出LSTM,组合分类回归DNN(深度神经网络)

2. 图片标注

2.1 问题描述:

有图片及标注信息,想要的模型是给图片,机器学习给标注

  • CNN网络中全连接层特征描述图片,特征与LSTM进行结构组合
2.2 模型设计
  • 数据准备
  • 图片CNN特征提取
  • 图片标注生成Word2Vect向量
  • 生成训练数据:图片特征+第n单词向量:第n+1单词向量
2.3 模型设计
  • 运用迁移学习,CNN特征,语句特征应用已有模型
  • 最终输出模型是LSTM,训练过程参数设定:梯度上限,学习率调整
    训练时间很长
2.4 模型运行
  • CNN特征提取
  • CNN特征+语句开头,单词逐个预测
2.5 图片标注升级
  • 详细标注Loss:目标探测loss 目标识别loss 区域标注loss
  • 训练方式:end-to-end
  • 开放性探测识别

3. 视频行为识别

3.1. CNN特征简单组合
3.2. 3D版本CNN图像特征的前后关系没有很好的区别
  • CNN特征提取
  • LSTM判断
  • 多次识别结果分析

4. 图片/视频问答

4.1 图片问答的意义
  • 是对纯文本语言问答系统的扩展
  • 图片理解和语言处理的深度融合
  • 提高人工智能能应用范围
  • 观察,思考,表达
4.2 方法流程
  • 按照语言问答流程解决
  • 图片特征同语言特征融合
  • 训练数据: 问题 + 图片 + 答案
    FCN:只有卷积层的神经网络
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值