TextCNN模型
简介
CNN,卷积神经网络,最初主要应用于图像识别领域,以局部权值共享的特殊结构隐式地学习大量的输入与输出之间的映射关系,而不用显式地进行特征抽取,在CV与NLP的任务中取得很好的效果。
图像领域中,相关指滤波器模板移过图像并计算每个位置乘积之和的处理,卷积的机理相似,但滤波器首先要旋转180度。由于旋转对参数求解没有帮助,因此在神经网络中用相关代替卷积操作。
基本架构
CNN做NLP任务时,基本模型架构如下:
- 输入:句子的矩阵表示,若句子长度为 n n n ,词向量为 x i x_i xi ,长度为 k k k ,则为一个 n ∗ k n * k n∗k 的矩阵,表示为:
x 1 : n = x 1 ⊕ x 2 ⊕ . . . ⊕ x n , ⊕ 是 连 接 运 算 x_{1:n}=x_1 \oplus x_2 \oplus ... \oplus x_n,\oplus是连接运算 x1:n=x1⊕x2⊕...⊕xn,⊕是连接运算
词向量:把对词的高维、稀疏的
1-of-V
表示通过一个隐藏层映射为低维、稠密的向量,使得相似的词欧式距离或余弦距离更近。
-
卷积层:使用多个卷积核(feature extractor) w ∈