多尺度无序池化卷积神经网络——MOP-CNN(MultiScale Orderless Pooling)

本文讲解的是Yunchao Gong发表在2014年的ECCV会议上的,“Multi-Scale Orderless Pooling of Deep Convolutional Activation Features”,中文译名是深度卷积激活特征的多尺度无序池化,其中提出了一种多尺度无序池化卷积神经网络,简称是MOP-CNN,下文称为MOP。

先谈核心思想,MOP是对CNN中的特征的有效改进。神经网络的倒数第二层出来的可以认为是特征,这个特征是整个image的特征,但是并不是十分理想的特征。为什么呢?因为卷积神经网络出来的特征的空间信息过强了。在卷积神经网络中的每一层,滤波器都是施加在空间邻近的神经元上。甚至有论文尝试从最后的深度特征恢复出原来的图片,还能得到比较相似的结果。特征的空间信息太强有什么坏处呢?可能会缺乏一些不变性。好的图像特征是要具备一些不变性的(invariant),比如旋转不变性,平移不变性,放缩不变性,亮度不变性,不变性的动机和意义在于,我们人眼识别物体,无论物体位置,距离物体远近,物体旋转的角度,物体受光照的情况,都能识别出物体,也就是说,理想情况下,物体的特征不受上述条件的变化而变化。

那现在空间信息过强,那么特征的几何不变性就会比较弱,比如旋转不变性,平移不变性。在比如场景分类的问题上,相似的场景应当具有一些同类的物体,而可能不限制这些物体的空间位置。但深度特征,由于空间信息过强,就可能隐式地限制了场景内物体的空间位置,可能会将具有同样物体的相似场景判为不相似的场景。为了改进,就要削弱一定的空间信息,将特征进行一定程度的扰乱,弱化空间上有序的程度,然后再重新组合成新的特征。

以下是使用TensorFlow编写的多尺度卷积神经网络的示例代码: ```python import tensorflow as tf # 定义输入数据的占位符 x = tf.placeholder(tf.float32, [None, 32, 32, 3]) y_true = tf.placeholder(tf.float32, [None, 10]) # 定义卷积层的函数 def conv2d(x, filters, kernel_size, stride, padding='SAME', activation=tf.nn.relu): conv = tf.layers.conv2d(x, filters, kernel_size, stride, padding, activation=activation) return conv # 定义多尺度卷积神经网络 def multiscale_cnn(x): # 第一层卷积 conv1_3x3 = conv2d(x, 64, [3, 3], 1) conv1_5x5 = conv2d(x, 64, [5, 5], 1) conv1_7x7 = conv2d(x, 64, [7, 7], 1) pool1 = tf.layers.max_pooling2d(conv1_3x3 + conv1_5x5 + conv1_7x7, [2, 2], [2, 2], 'SAME') # 第二层卷积 conv2_3x3 = conv2d(pool1, 128, [3, 3], 1) conv2_5x5 = conv2d(pool1, 128, [5, 5], 1) conv2_7x7 = conv2d(pool1, 128, [7, 7], 1) pool2 = tf.layers.max_pooling2d(conv2_3x3 + conv2_5x5 + conv2_7x7, [2, 2], [2, 2], 'SAME') # 第三层卷积 conv3_3x3 = conv2d(pool2, 256, [3, 3], 1) conv3_5x5 = conv2d(pool2, 256, [5, 5], 1) conv3_7x7 = conv2d(pool2, 256, [7, 7], 1) pool3 = tf.layers.max_pooling2d(conv3_3x3 + conv3_5x5 + conv3_7x7, [2, 2], [2, 2], 'SAME') # 展开特征图 flatten = tf.layers.flatten(pool3) # 全连接层 fc1 = tf.layers.dense(flatten, 1024, activation=tf.nn.relu) fc2 = tf.layers.dense(fc1, 512, activation=tf.nn.relu) logits = tf.layers.dense(fc2, 10) return logits # 构建模型 logits = multiscale_cnn(x) # 定义损失函数和优化器 cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_true, logits=logits)) train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # 定义准确率 correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(y_true, 1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) # 训练模型 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for i in range(NUM_EPOCHS): for j in range(NUM_BATCHES): batch_x, batch_y = get_batch(train_data, BATCH_SIZE) sess.run(train_op, feed_dict={x: batch_x, y_true: batch_y}) val_acc = sess.run(accuracy, feed_dict={x: val_data, y_true: val_labels}) print("Epoch:", i+1, "Validation Accuracy:", val_acc) ``` 此示例中,我们定义了一个三层卷积神经网络,每层卷积使用不同大小的卷积核(3x3、5x5和7x7)来提取不同尺度的特征。在每个卷积层之后,我们使用最大池化层来缩小特征图的大小。最后,我们将特征图展开并传递到全连接层,得出输出。我们使用softmax交叉熵作为损失函数,并使用Adam优化器进行优化。我们还计算了准确率,以评估模型在验证集上的表现。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值