detection侦查,发现目标
segmentation:分割; 划分; 分割成(或划分成)的部分; 显卡GPUTitanX /1080
卷积提取特征,越亮越重要
90年代手写识别
图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。
由卷积神经网络和cnn+LSTM
深度贯穿始终
输入层:data
卷积层:filter(助手和输入深度对应相同)进行特征提取,32*32*3(深度)最后叫特征图,区域一一对应
可以指定filter的个数,都压缩在一起得到特征结果,n层特征图。得到卷积输出结果。
迭代:得到的结果还可以进行下一次操作,在结果上也可以提取特征,不断提取,不断压缩,对结果进行分类回归,找到最好的W0,进行卷积网络的前向传播和反向传播。
1.选个核大小和filter大小一样
2.每层对应红色蓝色求内积,矩阵点乘,对应位置相乘,对应深度要找好,(最后一位,w0)
3.filter有w也有b WX +b w1=f11+f12+f13 b是单值(问题,咋构建合适的filter)
4.窗口划滑滑,步长stride为2,希望特征多一点好,即stride小
不能太大也不能太小,不合适容易造成像素点浪费;而且有的像素点利用次数不同
(methods:)边缘提取,添加pading项,一圈都加0,n pad为n圈
5.计算输出
输入:7*7,(h*W)求输出的h和w是多大
h0=(hi-filtersize+2p)/stride+1
w0=(wi-filtersize+2p)/stride+1
神经元都有自己的参数,每层可以有不同个数的神经元,全连接的弊端,神经元上有很多参数。
32*32上的神经元个数为其乘积,输入某点对应后边的某个小区域
5*5*3为一个神经元相连的,每一个神经元对应75个权重参数,有75万参数,几百万参数不好学习
权重共享,所有点都有权重共享的特性。w1 有75个,一层只有75个
b为偏制为输出层数的个数
通道RGB
构造矩阵,有大小,filter有大小(完全由自己设定,最后也得喝输入的通道数相同(深度))
全连接层
激活函数:之前有介绍
池化层:pooling,对特征浓缩,max方式对4个值进行压缩,使特征图大小急剧下降。
找窗口,对特征进行压缩,相对简单,没有参数
maxpooling ;找其中最大的一个
minpooling:求和取平均
下采样操作,