CS231n Lecture11

本文探讨了计算机视觉中的四个关键任务:语义分割、分类加定位、对象检测和实例分割。详细解释了如何使用unpooling和转置卷积解决尺寸问题,特别是Max unpooling和transpose convolution的原理。此外,提到了分类损失和回归损失的差异,并简单介绍了RCNN系列在对象检测中的应用,最后提到了Mask R-CNN在实例分割领域的进展。
摘要由CSDN通过智能技术生成

首先要区分计算机视觉中几个任务的概念。
在这里插入图片描述
Semantic Segmentation:根据图片中各个像素的语义进行像素的切分。
classification+Localization:将图片中的单一目标检测出来,并且用矩形框将其框出。
Object Detection:将图片中的不同目标用矩形框框出,与classification+location的区别在于识别物体的多少。
Instance Segmentation:将图片中的目标与背景分割开,与semantic segmentation类似。

Semantic Segmentation

一种方法是用sliding window,这种方法是将图片中每一个window范围内的像素进行分类,显然这种方法的计算量很大。
可以用卷积神经网络来求,但是由于最终输出的尺寸与输入图片的尺寸相同,如果在过程中不对图片的尺寸进行缩减,那么直接是用卷积神经网络的计算量会特别大。
针对该问题采用的方法是先降低尺寸,再通过一定的方法增大尺寸,网络结构如图:
在这里插入图片描述
这里用到了两种方法:1. unpooling; 2.transpose convolution

unpooli

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值