最全TextCNN代码解读及实战，2024年最新面试看什么

最新推荐文章于 2024-09-03 21:15:29 发布

2401_84538474

最新推荐文章于 2024-09-03 21:15:29 发布

阅读量894

点赞数 30

分类专栏：程序员文章标签：面试职场和发展

本文链接：https://blog.csdn.net/2401_84538474/article/details/138517908

版权

程序员专栏收录该内容

213 篇文章

订阅专栏

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

self.convs = nn.ModuleList([

nn.Conv2d(in_channels=1, out_channels=num_filter,

kernel_size=(fs, embedding_dim))

for fs in filter_sizes

])

在forward函数中

将升维后的数据，放入卷积中，执行：

conved = [F.relu(conv(embedded)).squeeze(3) for conv in self.convs]

卷积的公式为：N=(W-F+2P)/S+1，经过计算第四维数据变成了1，所以就可以降维，降维后的到三个卷积结果，shape分别是：

torch.Size([batch, 2, 4]) torch.Size([batch, 2, 3]) torch.Size([batch, 2, 2])

MaxPolling：第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。

对应forward：

pooled = [F.max_pool1d(conv,conv.shape[2]).squeeze(2) for conv in conved] # [batch,num_filter]

由于卷积核的大小是第三维，根据卷积公式可以计算出，经过池化，第三维的大小变成了1。然后再降维，就得到了三个定长的一维向量，向量分别是：

torch.Size([batch, 2]) torch.Size([batch, 2]) torch.Size([batch, 2])

然后，将三个向量拼接：

x_cat=torch.cat(pooled, dim=1)

就得到了一维向量，向量的大小为：torch.Size([batch, 6])

FullConnection and Softmax：最后接一层全连接的 softmax 层，输出每个类别的概率。

说明：

通道（Channels）：

图像中可以利用 (R, G, B) 作为不同channel；
文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：

图像是二维数据；
文本是一维数据，因此在TextCNN卷积用的是一维卷积（在word-level上是一维卷积；虽然文本经过词向量表达后是二维数据，但是在embedding-level上的二维卷积没有意义）。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野。

Pooling层：

利用CNN解决文本分类问题的文章还是很多的，比如这篇 A Convolutional Neural Network for Modelling Sentences 最有意思的输入是在 pooling 改成 (dynamic) k-max pooling ，pooling阶段保留 k 个最大的信息，保留了全局的序列信息。

Embedding方式：

数据量较大：可以直接随机初始化embeddings，然后基于语料通过训练模型网络来对embeddings进行更新和学习。
数据量较小：可以利用外部语料来预训练(pre-train)词向量，然后输入到Embedding层，用预训练的词向量矩阵初始化embeddings。（通过设置weights=[embedding_matrix]）。
- 静态(static)方式：训练过程中不再更新embeddings。实质上属于迁移学习，特别是在目标领域数据量比较小的情况下，采用静态的词向量效果也不错。（通过设置trainable=False）
非静态(non-static)方式：在训练过程中对embeddings进行更新和微调(fine tune)，能加速收敛。（通过设置trainable=True）

数据集

==============================================================

数据集采用cnews数据集，包含三个文件，分别是cnews.train.txt,cnews.val.txt,cnews,test.txt。类别：体育, 娱乐, 家居, 房产, 教育, 时尚, 时政, 游戏, 科技, 财经，共10个类别。

构建词向量

================================================================

第一步，读取预料，做分词。
思路：
1、创建默认方式的分词对象seg。
2、打开文件，按照行读取文章。
3、去掉收尾的空格，将label和文章分割开。
4、将分词后的文章放到src_data，label放入labels里。
5、返回结果。
我对代码做了注解，如下：

def read_corpus(file_path):

“”"读取语料

:param file_path:

:param type:

:return:

“”"

src_data = []

labels = []

seg = pkuseg.pkuseg() #使用默认分词方式。

with codecs.open(file_path,‘r’,encoding=‘utf-8’) as fout:

for line in tqdm(fout.readlines(),desc=‘reading corpus’):

if line is not None:

line.strip()的意思是去掉每句话句首句尾的空格

.split(‘\t’)的意思是根据’\t’把label和文章内容分开，label和内容是通过‘\t’隔开的。

\t表示空四个字符，也称缩进，相当于按一下Tab键

pair = line.strip().split(‘\t’)

if len(pair) != 2:

print(pair)

continue

src_data.append(seg.cut(pair[1]))# 对文章内容分词。

labels.append(pair[0])

return (src_data, labels) #返回文章内容的分词结果和labels

经过这个步骤得到了labels和分词后的文章。如下代码：

src_sents, labels = read_corpus(‘cnews/cnews.train.txt’)

对labels做映射：

labels = {label: idx for idx, label in enumerate(labels)}

得到labels对应的idx的字典，idx的值是最后一次插入label的值。

第二步构建词向量

这一步主要用到vocab.py的from_corpus方法

思路：

1、创建vocab_entry对象。

2、对分词后的文章统计词频，生成一个词和词频构成的字典。

3、从字典中取出Top size - 2个元素。

4、获取元素的词。

5、执行add方法将词放入vocab_entry，生成词和id，id就是词对应的向量值。

代码如下：

@staticmethod

def from_corpus(corpus, size, min_feq=3):

“”“从给定语料中创建VocabEntry”“”

vocab_entry = VocabEntry()

chain函数来自于itertools库，itertools库提供了非常有用的基于迭代对象的函数，而chain函数则是可以串联多个迭代对象来形成一个更大的迭代对象

*的作用：返回单个迭代器。

word_freq是个字典，key=词，value=词频

word_freq = Counter(chain(*corpus)) # Counter 是实现的 dict 的一个子类，可以用来方便地计数,统计词频

valid_words = word_freq.most_common(size - 2) # most_common()函数用来实现Top n 功能，在这里选出Top size-2个词

valid_words = [word for word, value in valid_words if value >= min_feq] # 把符合要求的词找出来放到list里面。

print(‘number of word types: {}, number of word types w/ frequency >= {}: {}’

.format(len(word_freq), min_feq, len(valid_words)))

for word in valid_words: # 将词放进VocabEntry里面。

vocab_entry.add(word)

return vocab_entry

创建完成后将词向量保存到json文件中

vocab = Vocab.build(src_sents, labels, 50000, 3)

print(‘generated vocabulary, source %d words’ % (len(vocab.vocab)))

vocab.save(‘./vocab.json’)

训练

=============================================================

训练使用Train_CNN.py,先看分析main方法的参数。

参数

parse = argparse.ArgumentParser()

parse.add_argument(“–train_data_dir”, default=‘./cnews/cnews.train.txt’, type=str, required=False)

parse.add_argument(“–dev_data_dir”, default=‘./cnews/cnews.val.txt’, type=str, required=False)

parse.add_argument(“–test_data_dir”, default=‘./cnews/cnews.test.txt’, type=str, required=False)

parse.add_argument(“–output_file”, default=‘deep_model.log’, type=str, required=False)

parse.add_argument(“–batch_size”, default=8, type=int)

parse.add_argument(“–do_train”, default=True, action=“store_true”, help=“Whether to run training.”)

parse.add_argument(“–do_test”, default=True, action=“store_true”, help=“Whether to run training.”)

parse.add_argument(“–learnning_rate”, default=5e-4, type=float)

parse.add_argument(“–num_epoch”, default=50, type=int)

parse.add_argument(“–max_vocab_size”, default=50000, type=int)

parse.add_argument(“–min_freq”, default=2, type=int)

parse.add_argument(“–embed_size”, default=300, type=int)

parse.add_argument(“–dropout_rate”, default=0.2, type=float)

parse.add_argument(“–warmup_steps”, default=0, type=int, help=“Linear warmup over warmup_steps.”)

parse.add_argument(“–GRAD_CLIP”, default=1, type=float)

parse.add_argument(“–vocab_path”, default=‘vocab.json’, type=str)

parse.add_argument(“–num_filter”, default=100, type=int, help=“CNN模型一个filter的输出channels”)

参数说明：

train_data_dir：训练集路径。

dev_data_dir：验证集路径

test_data_dir：测试集路径

output_file：输出的log路径

batch_size：batchsize的大小。

do_train：是否训练，默认True、

do_test：是否测试，默认True

learnning_rate：学习率

num_epoch：epoch的数量

max_vocab_size：词向量的个数

min_freq：词频，过滤低于这个数值的词

embed_size：Embedding的长度。

dropout_rate：dropout的值。

warmup_steps：设置预热的值。

vocab_path：词向量保存的路径

num_filter：卷积输出的数量。

构建词向量

vocab = build_vocab(args)

label_map = vocab.labels

print(label_map)

build_vocab的方法：

def build_vocab(args):

if not os.path.exists(args.vocab_path):

src_sents, labels = read_corpus(args.train_data_dir)

labels = {label: idx for idx, label in enumerate(labels)}

vocab = Vocab.build(src_sents, labels, args.max_vocab_size, args.min_freq)

vocab.save(args.vocab_path)

else:

vocab = Vocab.load(args.vocab_path)

return vocab

创建模型

创建CNN模型，将模型放到GPU上，调用train方法，训练。

cnn_model = CNN(len(vocab.vocab), args.embed_size, args.num_filter, [2, 3, 4], len(label_map),

dropout=args.dropout_rate)

cnn_model.to(device)

print(cnn_model.parameters)

train(args, cnn_model, train_data, dev_data, vocab, dtype=‘CNN’)

对train方法做了一些注解，如下：

def train(args, model, train_data, dev_data, vocab, dtype=‘CNN’):

LOG_FILE = args.output_file

#记录训练log

with open(LOG_FILE, “a”) as fout:

fout.write(‘\n’)

在这里插入图片描述

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取