王小草【深度学习】笔记第四弹--卷积神经网络与迁移学习

本文介绍了卷积神经网络在图像识别与定位中的应用,包括两种思路:视作回归和借助图像窗口。对于物体识别,文章讨论了边缘策略和R-CNN方法。此外,还详细讲解了利用神经网络进行Neural Style转换,实现图像风格迁移的过程。
摘要由CSDN通过智能技术生成

标签(空格分隔): 王小草深度学习笔记


1. 图像识别与定位

图像的相关任务可以分成以下两大类和四小类:
图像识别,图像识别+定位,物体检测,图像分割。
QQ截图20160819114357.png-314.7kB

图像的定位就是指在这个图片中不但识别出有只猫,还把猫在图片中的位置给精确地抠出来今天我们来讲一讲如何神经网络来做图像识别与定位。

图像的识别:
可以看成是图像的分类》C个类别
输入:整个图片
输出:类别标签(每个类别会有一个概率,选出概率最大的标签)
评估标准:准确率

图形的定位:
输入:整个图像
输出:物体边界框(x,y,w,h)。x,y是物体边界框的左上定点的横纵坐标;w,h是这个图片的长和高。通过这4个指标就可以定位出图中的物体的位置。
评估标准:交并准则

所以图像的识别与定位就是以上两个任务组成。

下面介绍2中思路去实现图像的识别与定位。

1.1 思路1:视作回归

对于图像定位来说只要求出了(x,y,w,h)这四个值就得到了定位,因为这四个值是连续性,所以不能用分类的方法来做,这里考虑用回归来做。

与之前分类问题不同的是,现在我们使用L2loss也就是欧氏距离来求损失函数。

步骤1:
首先得搭一个图像识别的神经网络,可以在VGG,GoogleLenet这些优秀的模型上fine-tuning一下。

QQ截图20160819125658.png-105.6kB

步骤2:
接下来在上述神经网络的尾部展开成两个部分:成为classification + regression的模式。前者是为了识别,后者是为了定位。一般这个展开会放在卷积层后面,也有时候放在全连接层后面。

QQ截图20160819125709.png-110.6kB

步骤3:
在regression回归部分使用欧氏距离计算损失,然后运用SGD来训练,在classification部分和以前一样不变。

QQ截图20160819130417.png-114.6kB

步骤4:
在预测阶段,将classification和regression两个模块拼上,让他们各自去实现自己不同的功能。

regression模块加在什么位置呢?
可以放在卷积层后,如VGG
也可以放在全连接层后, 如DeepPose

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值