TASK 7 卷积神经网络

卷积神经网络

在这里插入图片描述
在这里插入图片描述
此为单个神经元

输入层

对于数据输入层,主要做的就是对数据进行预处理,其中包括:

  • 去均值:把输入数据的各个维度中心化为0,如下图所示,目的是把样本的中心拉回坐标原点上去。
  • 归一化:幅度归一化到同样的范围,如下所示,即减少各个维度数据取值范围的差异带来的干扰,比如我们有两个维度的特征A和B,A的特征是0-10,B的特征是0-10000,如果直接使用这两个特征是会有问题的,好的做法是归一化,即A和B的范围都变到0-1
  • PCA/白化:用PCA降维;白化是对数据各个特征轴上的幅度归一化
    去均值与归一化效果图:

在这里插入图片描述
去相关与白化效果图:
在这里插入图片描述

2计算层

  • 深度
  • 步长
  • 填充值

在这里插入图片描述
为了窗口能将所有的数值遍历一遍,这是填充值的作用
卷积的计算
在这里插入图片描述
卷积的计算(灰色的为填充值)
在这里插入图片描述
下图展现了卷积计算的过程:
在这里插入图片描述

参数共享机制

  • 卷积层中每个神经元连接数据窗的权重是固定的,每个神经元只关注一个特征。神经元就是图像处理中的滤波器,例如边缘检测专用的Sobel滤波器,即卷积层每个滤波器都会有自己所关注一个图像的特征,比如垂直边缘、水平边缘、颜色、纹理等等,所有神经元加起来就是整张图像的特征提取集合。
  • 需要估算的权重个数减少
  • 一组固定的权重和不同窗口内数据做内积:卷积

激励层

把卷积层输出结果做非线性映射。

在这里插入图片描述
cNN采用的激励函数一般为ReLU(The Rectified Linear Unit/修正线单元),特点是收敛快,求梯度简单,但较为脆弱,图如下:
在这里插入图片描述

池化层

池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。

  1. 特征不变性,比如一张狗的照片,缩小了,也能认出来这是一条狗
  2. 特征降维,去除冗余信息,提取重要特征
  3. 防止过拟合
    池化层的方法有Max pooling 和average pooling,实际运用较多的为Max pooling。
    在这里插入图片描述

TextCNN

相关论文:https://arxiv.org/abs/1408.5882
网络结构:
在这里插入图片描述
textcNN详细原理如下:

在这里插入图片描述
Embedding:第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点。
Convolution:然后经过 kernel_sizes=(2,3,4) 的一维卷积层,每个kernel_size 有两个输出 channel。
MaxPolling:第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示。
FullConnection and Softmax:最后接一层全连接的 softmax 层,输出每个类别的概率。
通道
文本的输入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。
具体实现代码:

import logging

from keras import Input
from keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding
from keras.models import Model
from keras.utils import plot_model


def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None):
    """ TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer. """
    x_input = Input(shape=(max_sequence_length,))
    logging.info("x_input.shape: %s" % str(x_input.shape))  # (?, 60)

    if embedding_matrix is None:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input)
    else:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length,
                          weights=[embedding_matrix], trainable=True)(x_input)
    logging.info("x_emb.shape: %s" % str(x_emb.shape))  # (?, 60, 300)

    pool_output = []
    kernel_sizes = [2, 3, 4] 
    for kernel_size in kernel_sizes:
        c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb)
        p = MaxPool1D(pool_size=int(c.shape[1]))(c)
        pool_output.append(p)
        logging.info("kernel_size: %s \t c.shape: %s \t p.shape: %s" % (kernel_size, str(c.shape), str(p.shape)))
    pool_output = concatenate([p for p in pool_output])
    logging.info("pool_output.shape: %s" % str(pool_output.shape))  # (?, 1, 6)

    x_flatten = Flatten()(pool_output)  # (?, 6)
    y = Dense(output_dim, activation='softmax')(x_flatten)  # (?, 2)
    logging.info("y.shape: %s \n" % str(y.shape))

    model = Model([x_input], outputs=[y])
    if model_img_path:
        plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False)
    model.summary()
    return model

特征:这里用的是词向量表示方式

数据量较大:可以直接随机初始化embeddings,然后基于语料通过训练模型网络来对embeddings进行更新和学习。
数据量较小:可以利用外部语料来预训练(pre-train)词向量,然后输入到Embedding层,用预训练的词向量矩阵初始化embeddings。(通过设置weights=[embedding_matrix])。
静态(static)方式:训练过程中不再更新embeddings。实质上属于迁移学习,特别是在目标领域数据量比较小的情况下,采用静态的词向量效果也不错。(通过设置trainable=False)
非静态(non-static)方式:在训练过程中对embeddings进行更新和微调(fine tune),能加速收敛。(通过设置trainable=True)

参考链接:https://www.cnblogs.com/bymo/p/9675654.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值