1)卷积的操作也就是用于提取不同的种类的特征,同一map,用多少个卷积核去提取,也就是相当于采了多少种map的特征,最终也就得到了多少个map
2) 使用rpn的好处就是利用了公共卷积层,避免了从最初的图像经过大量的滑窗计算生成框,rpn的输出的框的个数一般是300个到500个,
rpn并不检测物体的具体种类,不管是猫脸狗脸自行车,只要他怀疑,都会出一个框,因此会出来大量的框,而后,对这个框进行排序,选出高位的前多少个框。
3)roi pooling主要是用来做pooling的,目的是为了将尺寸缩放到统一的尺寸,方便后面的全连层进行处理,因为全连层要求输出的数据具有相同的长宽。
roi主要的作用就是从图中抓点,pooling,当然这里也涉及到从原图坐标映射到feature map中坐标的运算
4)最后一步就是frout,目前的理解就是这仍然是一步rpn操作,进行分类,打分,最终的框要通过nms进行合并,减少框的数量。
疑惑:
1)最后一步的rpn与全连层的具体连接关系是什么样子的?
2)第二次rpn时输出的框的个数减少了吗?
今天重新理解了一下,应当是全连接层是作为一个分类器存在的。之前误以为softmax是作为分类器的,实际上softmax只是起到比较数字的作用,全连接层可以将输入的维度转化为softmax的输入维度。
而softmax的输入的维度是多少呢?比如想要分成10类,那么softmax就是输入10维的向量,同样输出10维的向量。