TextCNN模型学习及实验

TextCNN模型原理

在2014年,Yoon Kim针对CNN的输入层做了一些变形,提出了文本分类模型textCNN。与传统图像的CNN网络相比, textCNN 在网络结构上没有任何变化, 从下图可以看出textCNN 其实只有一层卷积,一层max-pooling, 最后将输出外接softmax 来n分类。
在这里插入图片描述
TextCNN详细过程:

**· Embedding:**第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点。
**·Convolution:**然后经过 kernel_sizes=(2,3,4) 的一维卷积层,每个kernel_size 有两个输出 channel。
**·MaxPolling:**第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示。
**·FullConnection and Softmax:**最后接一层全连接的 softmax 层,输出每个类别的概率。

通道(Channels):
图像中可以利用 (R, G, B) 作为不同channel;
文本的输入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

与图像当中CNN的网络相比,textCNN 最大的不同便是在输入数据的不同:

1.图像是二维数据, 图像的卷积核是从左到右, 从上到下进行滑动来进行特征抽取。
2.自然语言是一维数据, 虽然经过word-embedding 生成了二维向量,但是对词向量做从左到右滑动来进行卷积没有意义.

TextCNN的成功, 不是网络结构的成功, 而是通过引入已经训练好的词向量来在多个数据集上达到了超越benchmark 的表现,进一步证明了构造更好的embedding, 是提升nlp 各项任务的关键能力。

TextCNN的网络结构如下:
在这里插入图片描述

TextCNN实验

本次实验目标是使用TextCNN以及清华NLP组提供的THUCNews新闻文本分类数据集的子集实现文本分类。

数据集下载

数据集下载地址
由于数据集规模较为庞大,使用个人电脑CPU处理较慢,故训练集只使用其子集共50000条数据,其中共十种类别,每种类别5000条。
在这里插入图片描述

数据预处理

获取停用词:

stopwords_path = 'D:\python project/baidu_stopwords.txt'
stopwords = open(stopwords_path).read().split('\n')

采用jieba分词建立分词函数

import jieba 
def cut(sentence):
  return [token for token in jieba.lcut(sentence) if token not in stopwords]

建立词表(包含文本经过分词后除去停用词后所有词语的表,为构建词向量矩阵做准备):

import torchtext
import torch
#声明一个Field对象,对象里面填的就是需要对文本进行哪些操作,比如这里lower=True英文大写转小写,tokenize=cut对于文本分词采用之前定义好的cut函数,sequence=True表示输入的是一个sequence类型的数据,还有其他更多操作可以参考文档
TEXT = torchtext.data.Field(sequential=True,lower=True,tokenize=cut)
#声明一个标签的LabelField对象,sequential=False表示标签不是sequence,dtype=torch.int64标签转化成整形
LABEL = torchtext.data.LabelField(sequential=False, dtype=torch.int64)
#这里主要是告诉torchtext需要处理哪些数据,这些数据存放在哪里,TabularDataset是一个处理scv/tsv的常用类
train_dataset,dev_dataset,test_dataset = torchtext.data.TabularDataset.splits(
      path='D:/python project/TextCNN/cnews',  #文件存放路径
      format='tsv',   #文件格式
      skip_header=False,  #是否跳过表头,我这里数据集中没有表头,所以不跳过
      train='train.tsv',  
      validation='dev.tsv',
      test='test.tsv',    
      fields=[('label',LABEL),('content',TEXT)] # 定义数据对应的表头
  )

定义预训练词向量(收敛速度更快):

pretrained_name = 'sgns.sogou.word' # 预训练词向量文件名
pretrained_path = 'D:、python project/TextCNN/word_embedding' #预训练词向量存放路径
vectors = torchtext.vocab.Vectors(name=pretrained_name, cache=pretrained_path)

调用torchtext的build_vocab函数建立词表

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值