textcnn文本词向量_CS224n课后作业---textCNN代码分析

最新推荐文章于 2024-08-19 14:19:07 发布

看热闹不嫌事大菌

最新推荐文章于 2024-08-19 14:19:07 发布

阅读量409

点赞数

文章标签： textcnn文本词向量

本文链接：https://blog.csdn.net/weixin_33335851/article/details/112503077

版权

本文介绍了textCNN的原理和实现，将一维卷积神经网络应用于文本分类，重点讲解了模型的结构，包括卷积层和最大池化层的使用，并通过一个实例展示了其在情感分析任务中的应用。

摘要由CSDN通过智能技术生成

（1）textCNN原理

在语言模型和文本分类任务中，我们将文本数据看作是只有一个维度的时间序列，并很自然地使用循环神经网络来表征这样的数据。其实，我们也可以将文本当作一维图像，从而可以用一维卷积神经网络来捕捉临近词之间的关联。本节将介绍将卷积神经网络应用到文本分析的开创性工作之一：textCNN [1]。

textCNN模型主要使用了一维卷积层和时序最大池化层。假设输入的文本序列由 n 个词组成，每个词用 d 维的词向量表示。那么输入样本的宽为n，高为1，输入通道数为d。textCNN的计算主要分为以下几步。

1.定义多个一维卷积核，并使用这些卷积核对输入分别做卷积计算。宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性。

2.对输出的所有通道分别做时序最大池化，再将这些通道的池化输出值连结为向量。

3.通过全连接层将连结后的向量变换为有关各类别的输出。这一步可以使用丢弃层应对过拟合。

图1 用一个例子解释了textCNN的设计。

这里的输入是一个有11个词的句子，每个词用6维词向量表示。因此输入序列的宽为11，输入通道数为6。

2. 给定2个一维卷积核，核宽分别为2和4，输出通道数分别设为4和5。因此，一维卷积计算后，4个输出通道的宽为11-2+1=10，而其他5个通道的宽为11-4+1=8。

3. 尽管每个通道的宽不同，我们依然可以对各个通道做时序最大池化，并将9个通道的池化输出连结成一个9维向量。最终，使用全连接将9维向量变换为2维输出，即正面情感和负面情感的预测。

（2）textCNN实现

'''
  code by Tae Hwan Jung(Jeff Jung) @graykode
'''
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.autograd import Variable
import torch.nn.functional as F

dtype = torch.FloatTensor

# Text-CNN Parameter
embedding_size = 2 # n-gram
sequence_length = 3
num_classes = 2  # 0 or 1
filter_sizes = [2, 2, 2] # n-gram window
num_filters = 3

# 3 words sentences (=sequence_length is 3)
sentences = ["i love you", "he loves me", "she likes baseball", "i hate