NLP系列 7. 卷积神经网络

卷积运算

定义:

卷积是两个变量在某范围内相乘后求和的结果。
( f ∗ g ) ( x ) (f*g)(x) (fg)(x)为f,g的卷积。
连续的卷积定义为: ( f ∗ g ) ( n ) = ∫ − ∞ + ∞ f ( τ ) g ( n − τ ) (f*g)(n)=\int_{-\infty}^{+\infty}f(\tau)g(n-\tau) (fg)(n)=+f(τ)g(nτ)
离散的卷积定义为: ( f ∗ g ) ( n ) = ∑ r = − ∞ + ∞ f ( τ ) g ( n − τ ) (f*g)(n)=\sum_{r=-\infty}^{+\infty}f(\tau)g(n-\tau) (fg)(n)=r=+f(τ)g(nτ)
公式中 f ( x ) f(x) f(x)可以理解为原始数据矩阵,如原始图像等。 g ( x ) g(x) g(x)可以理解为作用点,结合起来就是卷积核。

为什么要用卷积

具体而言,卷积在图像领域可以用于图像平滑或者边缘强化。
卷积也可以通过三个重要的思想来帮助改进机器学习系统:稀疏权重、参数共享、等变表示。

稀疏权重

传统的矩阵运算,如果有 m 个输入和 n 个输出,那么需要 mn 个参数。而采用卷积运算后,由于卷积核的大小一般都不大,如为k,那么此时的输出需要 kn个参数就够了。下图可以解释这个:
在这里插入图片描述
除了权重稀疏了之外,从另一个角度看,在卷积网络中,尽管直接连接都是很稀疏的,但处在更深层次的单元可以间接地连接到全部或者大部分输入图像。
在这里插入图片描述

参数共享

参数共享是指在一个模型的多个函数中使用相同的参数。在传统的神经网络中,当计算一层的输出时,权重矩阵的元素只使用一次。而卷积运算的参数共享是说核的每一个元素都作用在输入的每一个位置上(说白了就是一个核扫遍整个输入,而不是动一下一个核)。卷积运算中的参数共享保证了我们只需要学习一个参数集合,而不是对于每一个位置都需要学习一个单独的参数集合。

等变表示

对于卷积,参数共享的特殊形式使得神经网络层具有对平移等变的性质。如果一个函数满足输入改变,输出也以同样的形式改变这一性质,我们就说它是等变的。特别低,如果函数 f(x) 与 g(x) 满足 f(g(x)) = g(f(x)) ,我们就说 f(x) 对与变换 g 具有等变性。
对于卷积来说,如果零 g 是输入的任意平移函数,那么卷积函数对于 g 具有等变性。也就是说,通过函数g 把输入I平移后进行卷积得到的结果,与先对I进行卷积再进行平移得到的结果是一样的。

代码运算

基于Tensorflow的conv2d。
tf.nn.conv2d参数说明如下:

conv2d(
    input,
    filter,
    strides,
    padding,
    use_cudnn_on_gpu=True,
    data_format='NHWC',
    name=None
)
参数名必选类型说明
inputtensor是一个 4 维的 tensor,即 [ batch, in_height, in_width, in_channels ](若 input 是图像,[ 训练时一个 batch 的图片数量, 图片高度, 图片宽度, 图像通道数 ])
filtertensor是一个 4 维的 tensor,即 [ filter_height, filter_width, in_channels, out_channels ](若 input 是图像,[ 卷积核的高度,卷积核的宽度,图像通道数,卷积核个数 ]),filter 的 in_channels 必须和 input 的 in_channels 相等
strides列表长度为 4 的 list,卷积时候在 input 上每一维的步长,一般 strides[0] = strides[3] = 1
paddingstring只能为 " VALID “,” SAME " 中之一,这个值决定了不同的卷积方式。VALID 丢弃方式;SAME:补全方式
use_cudnn_on_gpubool是否使用 cudnn 加速,默认为 true
data_formatstring只能是 " NHWC ", " NCHW ",默认 " NHWC "
namestring运算名称

示例代码:

import tensorflow as tf

a = tf.constant([1,1,1,0,0,0,1,1,1,0,0,0,1,1,1,0,0,1,1,0,0,1,1,0,0],dtype=tf.float32,shape=[1,5,5,1])
b = tf.constant([1,0,1,0,1,0,1,0,1],dtype=tf.float32,shape=[3,3,1,1])
c = tf.nn.conv2d(a,b,strides=[1, 2, 2, 1],padding='VALID')
d = tf.nn.conv2d(a,b,strides=[1, 2, 2, 1],padding='SAME')
with tf.Session() as sess:
    print ("c shape:")
    print (c.shape)
    print ("c value:")
    print (sess.run(c))
    print ("d shape:")
    print (d.shape)
    print ("d value:")
    print (sess.run(d))

结果如下:
在这里插入图片描述

池化

定义:

我们之所以使用卷积后的特征,是因为图像具有“静态型”的属性,也就意味着在一个图像区域的特征极有可能在另一个区域同样适用。所以,当我们描述一个大的图像的时候就可以对不同位置的特征进行聚合统计,利用相邻输出的总体特征代替网络在该位置的输出(例如:可以计算图像一个区域上的某个特定特征的平均值 or 最大值)。
这种统计方式不仅可以降低纬度,还不容易过拟合。这种聚合统计的操作就称之为池化。常用的有最大池化和平均池化。
最大池化即取局部接受域中值最大的点。
平均池化是取局部接受域中值的平均。

为什么要用池化

平移不变形

经过池化函数后的大多数输出并不会发生改变,具有平移不变性。
例如图片中右上角有一只猫,如果把猫移到左下角,我们还是认为图像中有一只猫,在进行特征提取时应当考虑平移不变形。

降采样

池化用最大值或者平均值代替局部接受域中的所有值,因而是对局部接受域的整体的反馈,所以可以用于降采样。

代码运算

tf.nn.max_pool
参数如下:

max_pool(
    value,
    ksize,
    strides,
    padding,
    data_format='NHWC',
    name=None
)
参数名必选类型说明
valuetensor4 维的张量,即 [ batch, height, width, channels ],数据类型为 tf.float32
ksize列表池化窗口的大小,长度为 4 的 list,一般是 [1, height, width, 1],因为不在 batch 和 channels 上做池化,所以第一个和最后一个维度为 1
strides列表池化窗口在每一个维度上的步长,一般 strides[0] = strides[3] = 1
paddingstring只能为 " VALID “,” SAME " 中之一,这个值决定了不同的池化方式。VALID 丢弃方式;SAME:补全方式
data_formatstring只能是 " NHWC ", " NCHW “,默认” NHWC "
namestring运算名称

示例代码:

import tensorflow as tf

a = tf.constant([1,3,2,1,2,9,1,1,1,3,2,3,5,6,1,2],dtype=tf.float32,shape=[1,4,4,1])
b = tf.nn.max_pool(a,ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],padding='VALID')
c = tf.nn.max_pool(a,ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],padding='SAME')
with tf.Session() as sess:
    print ("b shape:")
    print (b.shape)
    print ("b value:")
    print (sess.run(b))
    print ("c shape:")
    print (c.shape)
    print ("c value:")
    print (sess.run(c))

在这里插入图片描述

Text-CNN

原理

网络结构如下图所示,示意图中第一层输入为7*5的词向量矩阵,其中词向量维度为5,句子长度为7,然后第二层使用了3组宽度分别为2、3、4的卷积核,图中每种宽度的卷积核使用了两个。
在这里插入图片描述
其中每个卷积核在整个句子长度上滑动,得到n个激活值,图中卷积核滑动的过程中没有使用padding,因此宽度为4的卷积核在长度为7的句子上滑动得到4个特征值。然后出场的就是卷积的好基友全局池化了,每一个卷积核输出的特征值列向量通过在整个句子长度上取最大值得到了6个特征值组成的feature map来供后级分类器作为分类的依据。
卷积的过程是计算与某些关键词的相似度,然后通过max pooling层来得出模型关注那些关键词是否在整个输入文本中出现,以及最相似的关键词与卷积核的相似度最大有多大。

利用Text-CNN模型来进行文本分类。

利用TextCNN进行IMDB文本分类
参考:
https://github.com/jiangxinyang227/textClassifier/tree/master/textCNN
https://www.cnblogs.com/jiangxinyang/p/10207482.html

参考链接

https://zhuanlan.zhihu.com/p/30994790
https://www.zhihu.com/question/22298352
http://pelhans.com/2019/04/19/deepdive_tensorflow-note8/
http://www.52nlp.cn/tag/textcnn

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值