Convolutional Neural Networks for Sentence Classification笔记

最新推荐文章于 2021-11-24 20:15:09 发布

码源

最新推荐文章于 2021-11-24 20:15:09 发布

阅读量439

点赞数

分类专栏：机器学习文章标签： r语言深度学习机器学习

本文链接：https://blog.csdn.net/weixin_39860046/article/details/121070368

版权

机器学习专栏收录该内容

24 篇文章 2 订阅

订阅专栏

首先，什么是卷积神经网络CNN，参考https://www.zhihu.com/question/22298352?rf=21686447
个人理解：过去时刻的输入也会对现在产生影响，卷积使用kernel在输入上（对现在时刻和非现在时刻）提取特征，每次移动提取的特征组成feature map。

文章整体架构：
在这里插入图片描述

首先最左边是输入层，包含一句话的n个词，每个词表示为embedding为k维的词向量。注意这里有static和non-static两个通道，分别表示：

non-static 通道：词向量使用预训练wordvec，但是会在训练中进行微调。
static 通道：词向量使用预训练wordvec，在训练中不改变。

然后是卷积层，这里使用m个不同size的kernel（kernel宽都是k，高为h，h不同）进行卷积，比如红色的kernel高为2，黄色的kernel高为3，这样可以捕捉不同范围内词之间的关系。卷积后得到m个(n-h)*1的feature map。
接下来是max-pooling层，对m个(n-h)1的feature map每个选择最大（最重要的）的特征留下来，得到m1的feature map。（思想：一个kernel只捕捉一句话中最重要的特征）
最后是带dropout和softmax的全连接层，softmax得到概率最大的预测类别。dropout是为了防止过拟合，在模型训练时随机让网络某些隐含层节点的权重不工作，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了。

文章结论：
本文证明即使是一个简单的CNN结构也能在分类任务上取得很好的效果。除此之外，通过无监督学习方法得到的词向量在NLP任务中有着重要的作用。

代码参考：
import logging
%tensorflow_version 2.x
import tensorflow as tf
from tensorflow.keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding,Input
from tensorflow.keras.models import Model
from tensorflow.keras.utils import plot_model

def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None):
#max_sequence_length:句子的长度
#max_token_num：词汇表的长度
#embedding_dim：嵌入矩阵的维度
#output_dim：嵌入矩阵处理后的词向量维度
#1.构建embedding层
x_input = Input(shape=(max_sequence_length,))#输入一个长度为max_sequence_length的句子
logging.info(“x_input.shape: %s” % str(x_input.shape)) # (?, 60)
if embedding_matrix is None:
x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input)
else:
x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length,weights=[embedding_matrix], trainable=True)(x_input)
logging.info(“x_emb.shape: %s” % str(x_emb.shape)) # (?, 60, 300)
#2.构建卷积层和池化层
pool_output = []
kernel_sizes = [2, 3, 4]
for kernel_size in kernel_sizes:
c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb)#卷积
p = MaxPool1D(pool_size=int(c.shape[1]))©#池化
pool_output.append§
logging.info(“kernel_size: %s \t c.shape: %s \t p.shape: %s” % (kernel_size, str(c.shape), str(p.shape)))
pool_output = concatenate([p for p in pool_output])
logging.info(“pool_output.shape: %s” % str(pool_output.shape)) # (?, 1, 6)

#3.展平+输出
x_flatten = Flatten()(pool_output) # (?, 6)
y = Dense(output_dim, activation=‘softmax’)(x_flatten) # (?, 2)
logging.info(“y.shape: %s \n” % str(y.shape))

model = Model([x_input], outputs=[y])
if model_img_path:
plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False)
model.summary()
return model

textcnn(max_sequence_length=60, max_token_num=5000, embedding_dim=100,output_dim=100)

码源

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Convolutional Neural Networks for Sentence Classification笔记

首先，什么是卷积神经网络CNN，参考https://www.zhihu.com/question/22298352?rf=21686447个人理解：过去时刻的输入也会对现在产生影响，卷积使用kernel在输入上（对现在时刻和非现在时刻）提取特征，每次移动提取的特征组成feature map。文章整体架构：首先最左边是输入层，包含一句话的n个词，每个词表示为embedding为k维的词向量。注意这里有static和non-static两个通道，分别表示：non-static 通道：词向量使用
复制链接

扫一扫