NLP学习第7讲

最新推荐文章于 2023-05-19 11:31:39 发布

谜底666

最新推荐文章于 2023-05-19 11:31:39 发布

阅读量749

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/midi666/article/details/94826789

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Task7 卷积神经网络 (2 day)

卷积运算的定义、动机（稀疏权重、参数共享、等变表示）。一维卷积运算和二维卷积运算。
池化运算的定义、种类（最大池化、平均池化等）、动机。
Text-CNN的原理。
利用Text-CNN模型来进行文本分类。

一、卷积运算

1.定义

卷积运算通常用星号表示：s(t)=(x∗w)(t) ，在卷积网络的术语中，卷积的第一个参数（函数 x）通常叫做输入(input)，第二个参数(函数 w)叫做核函数(kernel function)，输出被称作特征映射(feature map)。

如果输入值是一个一维的数据就是一维卷积。一维卷积常用于序列模型，自然语言处理领域。

比如：输入的数据维度为8，过滤器的维度为5。卷积后输出的数据维度为8−5+1=4

如果输入值是一个二维的数据就是二维卷积。二维卷积常用于计算机视觉、图像处理领域。

比如：数据维度为14×14，过滤器大小为5×5，二者做卷积，输出的数据维度为10×10（14−5+1=10）

2.动机

卷积运算通过三个重要的思想来帮助改进机器学习系统：稀疏交互(sparse interactions)、参数共享(parameter sharing)、等变表示(equivariant representa-tions)。另外，卷积提供了一种处理大小可变的输入的方法。

1）稀疏交互：传统的神经网络使用矩阵乘法来建立输入与输出的连接关系，每一个输出单元与每一个输入单元都产生交互。然而，卷积网络具有稀疏交互(sparse interactions)的特征，这是通过使核的大小远小于输入的大小来达到的。

如果有 m 个输入和 n 个输出，那么矩阵乘法需要 m×n个参数并且相应算法的时间复杂度为 O(m×n)。如果我们限制每一个输出拥有的连接数为 k，那么稀疏的连接方法只需要 k×n 个参数以及O(k×n) 的运行时间。在实际应用中，只需保持 k 比 m小几个数量级，就能在机器学习的任务中取得好的表现。

2）参数共享：参数共享(parameter sharing)是指在一个模型的多个函数中使用相同的参数。

在传统的神经网络中，当计算一层的输出时，权重矩阵的每一个元素只使用一次。而在卷积神经网络中，核的每一个元素都作用在输入的每一位置上（是否考虑边界像素取决于对边界决策的设计）。卷积运算中的参数共享保证了我们只需要学习一个参数集合，而不是对于每一位置都需要学习一个单独的参数集合。

3）等变表示：如果一个函数满足输入改变，输出也以同样的方式改变这一性质，我们就说它是等变(equivariant)的。特别地，如果函数 f(x) 与 g(x)满足 f(g(x))=g(f(x))，我们就说 f(x) 对于变换 g 具有等变性。

3.反卷积

反卷积，它有这几个比较熟悉的名字，例如转置卷积、上采样、空洞卷积、微步卷积，但我们认为，最直接的就是反卷积=上采样=（转置卷积+微步卷积）⊆ 空洞卷积=一般意义上的广义卷积（包含上采样和下采样）。另外，在概念上，我们只是将其称为反卷积，这不是通过数学意义上的严格证明，其实只是说恢复了特征图的尺寸大小，数值上存在差异。

conv2d_transpose(value, filter, output_shape, strides, padding="SAME", data_format="NHWC", name=None)

value：指需要做反卷积的输入图像，它要求是一个Tensor

filter：卷积核，它要求是一个Tensor，具有[filter_height, filter_width, out_channels, in_channels]这样的shape，具体含义是[卷积核的高度，卷积核的宽度，卷积核个数，图像通道数]

output_shape：反卷积操作输出的shape，细心的同学会发现卷积操作是没有这个参数的，那这个参数在这里有什么用呢？下面会解释这个问题

strides：反卷积时在图像每一维的步长，这是一个一维的向量，长度4

padding：string类型的量，只能是"SAME","VALID"其中之一，这个值决定了不同的卷积方式

data_format：string类型的量，'NHWC’和’NCHW’其中之一，这是tensorflow新版本中新加的参数，它说明了value参数的数据格式。

二、池化运算

卷积操作后，我们得到了一张张有着不同值的feature map，尽管数据量比原图少了很多，但还是过于庞大（比较深度学习动不动就几十万张训练图片），因此接下来的池化操作就可以发挥作用了，它最大的目标就是减少数据量。

池化分为两种，Max Pooling 最大池化、Average Pooling平均池化。顾名思义，最大池化就是取最大值，平均池化就是取平均值。

池化层的输入一般来源于上一个卷积层，主要的作用是提供了很强的鲁棒性。（例如max-pooling是取一小块区域中的最大值，此时若此区域中的其他值略有变化，或者图像稍有平移，pooling后的结果仍不变），并且减少了参数的数量，防止过拟合现象的发生。池化层一般没有参数，所以反向传播的时候，只需对输入参数求导，不需要进行权值更新。

对于池化 (聚合、Pooling)，归纳来说：

降低数据维度，避免过拟合
增大局部感受野范围，利于抽象特征的提取
提高平移不变性

三、Text-CNN

1.TextCNN：将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息（类似于多窗口大小的ngram），从而能够更好地捕捉局部相关性。

TextCNN详细过程：

Embedding：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点。
Convolution：然后经过 kernel_sizes=(2,3,4) 的一维卷积层，每个kernel_size 有两个输出 channel。
MaxPolling：第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。
FullConnection and Softmax：最后接一层全连接的 softmax 层，输出每个类别的概率。

通道（Channels）：

图像中可以利用 (R, G, B) 作为不同channel；
文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：

图像是二维数据；
文本是一维数据，因此在TextCNN卷积用的是一维卷积（在word-level上是一维卷积；虽然文本经过词向量表达后是二维数据，但是在embedding-level上的二维卷积没有意义）。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野。

代码参考博客2

import tensorflow as tf
import numpy as np


class TextCNN(object):
    """
    A CNN for text classification.
    Uses an embedding layer, followed by a convolutional, max-pooling and softmax layer.
    """
    def __init__(
      self, sequence_length, num_classes, vocab_size,
      embedding_size, filter_sizes, num_filters, l2_reg_lambda=0.0):

        # Placeholders for input, output and dropout
        self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x")
        self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y")
        self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob")

        # Keeping track of l2 regularization loss (optional)
        l2_loss = tf.constant(0.0)

        # Embedding layer
        with tf.device('/cpu:0'), tf.name_scope("embedding"):
            self.W = tf.Variable(
                tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0),
                name="W")
            self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x)
            self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)

        # Create a convolution + maxpool layer for each filter size
        pooled_outputs = []
        for i, filter_size in enumerate(filter_sizes):
            with tf.name_scope("conv-maxpool-%s" % filter_size):
                # Convolution Layer
                filter_shape = [filter_size, embedding_size, 1, num_filters]
                W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b")
                conv = tf.nn.conv2d(
                    self.embedded_chars_expanded,
                    W,
                    strides=[1, 1, 1, 1],
                    padding="VALID",
                    name="conv")
                # Apply nonlinearity
                h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                # Maxpooling over the outputs
                pooled = tf.nn.max_pool(
                    h,
                    ksize=[1, sequence_length - filter_size + 1, 1, 1],
                    strides=[1, 1, 1, 1],
                    padding='VALID',
                    name="pool")
                pooled_outputs.append(pooled)

        # Combine all the pooled features
        num_filters_total = num_filters * len(filter_sizes)
        self.h_pool = tf.concat(pooled_outputs, 3)
        self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total])

        # Add dropout
        with tf.name_scope("dropout"):
            self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob)

        # Final (unnormalized) scores and predictions
        with tf.name_scope("output"):
            W = tf.get_variable(
                "W",
                shape=[num_filters_total, num_classes],
                initializer=tf.contrib.layers.xavier_initializer())
            b = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b")
            l2_loss += tf.nn.l2_loss(W)
            l2_loss += tf.nn.l2_loss(b)
            self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name="scores")
            self.predictions = tf.argmax(self.scores, 1, name="predictions")

        # Calculate mean cross-entropy loss
        with tf.name_scope("loss"):
            losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y)
            self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss

        # Accuracy
        with tf.name_scope("accuracy"):
            correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1))
            self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")

参考博客：

https://blog.csdn.net/nc514819873/article/details/89524786

https://blog.csdn.net/shark803/article/details/89515958

https://blog.csdn.net/cs123456789dn/article/details/88561600

https://blog.csdn.net/mxs1123/article/details/88578601

谜底666

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP学习第7讲

Task7 卷积神经网络 (2 day)卷积运算的定义、动机（稀疏权重、参数共享、等变表示）。一维卷积运算和二维卷积运算。池化运算的定义、种类（最大池化、平均池化等）、动机。 Text-CNN的原理。利用Text-CNN模型来进行文本分类。一、卷积运算1.定义卷积运算通常用星号表示：s(t)=(x∗w)(t) ，在卷积网络的术语中，卷积的第一个参数（函数 x）通常叫做输入(...
复制链接

扫一扫

专栏目录