在自然语言处理任务中,卷积神经网络(CNN)无需对文本进行大量的预处理工作,有效缓解了特征工程的工作量,CNN主要由输入层、卷积层、池化层和全连接层组成。
(1)输入层是对输入数据的向量表示,对于给定的长度为n的句子,输入层矩阵可表示为
其中k为词向量维度。
(2)卷积层使用不同的卷积核对输入矩阵进行卷积操作,提取输入的局部特征,得到卷积核特征向量图:
其中,x为卷积核窗口词向量矩阵,W为权重矩阵,b为偏置,f为激活函数。
(3)池化层是卷积神经网络的重要网络层,对于卷积层得到的特征向量图,可以通过池化层来对特征向量进行采样操作,提取重要的特征信息。同时,池化层可以输出一个固定大小的矩阵。不同长度的句子输入和不同大小的卷积核可以通过池化层得到一个相同维度的输出,并将输出传给全连接层对输入进行分类,得到分类结果。