TextCNN代码解读及实战(1),先收藏了

输入的vocab_size是7,embedding_dim是5。

在forward函数中执行embedding后,得到7×5的矩阵。举证的shape为[batch,7,5]

经过 embedded.unsqueeze(1),第二维的前面增加一维,满足卷积的输入,此时的shape为[batch,1,7,5]

  • Convolution:然后经过 kernel_sizes为(2,5),(3,5),(4,5) 的一维卷积层,5是embedding_dim的大小。每个kernel_size 有两个输出 channel。

对应代码:

self.convs = nn.ModuleList([

nn.Conv2d(in_channels=1, out_channels=num_filter,

kernel_size=(fs, embedding_dim))

for fs in filter_sizes

])

在forward函数中

将升维后的数据,放入卷积中,执行:

conved = [F.relu(conv(embedded)).squeeze(3) for conv in self.convs]

卷积的公式为:N=(W-F+2P)/S+1,经过计算第四维数据变成了1,所以就可以降维,降维后的到三个卷积结果,shape分别是:

torch.Size([batch, 2, 4]) torch.Size([batch, 2, 3]) torch.Size([batch, 2, 2])

  • MaxPolling:第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示。

对应forward:

pooled = [F.max_pool1d(conv,conv.shape[2]).squeeze(2) for conv in conved] # [batch,num_filter]

由于卷积核的大小是第三维,根据卷积公式可以计算出,经过池化,第三维的大小变成了1。然后再降维,就得到了三个定长的一维向量,向量分别是:

torch.Size([batch, 2]) torch.Size([batch, 2]) torch.Size([batch, 2])

然后,将三个向量拼接:

x_cat=torch.cat(pooled, dim=1)

就得到了一维向量,向量的大小为:torch.Size([batch, 6])

  • FullConnection and Softmax:最后接一层全连接的 softmax 层,输出每个类别的概率。

说明

通道(Channels):

  • 图像中可以利用 (R, G, B) 作为不同channel;

  • 文本的输入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积(conv-1d):

  • 图像是二维数据;

  • 文本是一维数据,因此在TextCNN卷积用的是一维卷积(在word-level上是一维卷积;虽然文本经过词向量表达后是二维数据,但是在embedding-level上的二维卷积没有意义)。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野

Pooling层:

利用CNN解决文本分类问题的文章还是很多的,比如这篇 A Convolutional Neural Network for Modelling Sentences 最有意思的输入是在 pooling 改成 (dynamic) k-max pooling ,pooling阶段保留 k 个最大的信息,保留了全局的序列信息。

Embedding方式:

  • 数据量较大:可以直接随机初始化embeddings,然后基于语料通过训练模型网络来对embeddings进行更新和学习。

  • 数据量较小:可以利用外部语料来预训练(pre-train)词向量,然后输入到Embedding层,用预训练的词向量矩阵初始化embeddings。(通过设置weights=[embedding_matrix])。

    • 静态(static)方式:训练过程中不再更新embeddings。实质上属于迁移学习,特别是在目标领域数据量比较小的情况下,采用静态的词向量效果也不错。(通过设置trainable=False)
  • 非静态(non-static)方式:在训练过程中对embeddings进行更新和微调(fine tune),能加速收敛。(通过设置trainable=True)

数据集

==============================================================

数据集采用cnews数据集,包含三个文件,分别是cnews.train.txt,cnews.val.txt,cnews,test.txt。类别:体育, 娱乐, 家居, 房产, 教育, 时尚, 时政, 游戏, 科技, 财经,共10个类别。

构建词向量

================================================================

  • 第一步,读取预料,做分词。

  • 思路:

  • 1、创建默认方式的分词对象seg。

  • 2、打开文件,按照行读取文章。

  • 3、去掉收尾的空格,将label和文章分割开。

  • 4、将分词后的文章放到src_data,label放入labels里。

  • 5、返回结果。

  • 我对代码做了注解,如下:

def read_corpus(file_path):

“”"读取语料

:param file_path:

:param type:

:return:

“”"

src_data = []

labels = []

seg = pkuseg.pkuseg() #使用默认分词方式。

with codecs.open(file_path,‘r’,encoding=‘utf-8’) as fout:

for line in tqdm(fout.readlines(),desc=‘reading corpus’):

if line is not None:

line.strip()的意思是去掉每句话句首句尾的空格

.split(‘\t’)的意思是根据’\t’把label和文章内容分开,label和内容是通过‘\t’隔开的。

\t表示空四个字符,也称缩进,相当于按一下Tab键

pair = line.strip().split(‘\t’)

if len(pair) != 2:

print(pair)

continue

src_data.append(seg.cut(pair[1]))# 对文章内容分词。

labels.append(pair[0])

return (src_data, labels) #返回文章内容的分词结果和labels

  • 经过这个步骤得到了labels和分词后的文章。如下代码:

src_sents, labels = read_corpus(‘cnews/cnews.train.txt’)

对labels做映射:

labels = {label: idx for idx, label in enumerate(labels)}

得到labels对应的idx的字典,idx的值是最后一次插入label的值。

第二步 构建词向量

这一步主要用到vocab.py的from_corpus方法

思路:

1、创建vocab_entry对象。

2、对分词后的文章统计词频,生成一个词和词频构成的字典。

3、从字典中取出Top size - 2个元素。

4、获取元素的词。

5、执行add方法将词放入vocab_entry,生成词和id,id就是词对应的向量值。

代码如下:

@staticmethod

def from_corpus(corpus, size, min_feq=3):

“”“从给定语料中创建VocabEntry”“”

vocab_entry = VocabEntry()

chain函数来自于itertools库,itertools库提供了非常有用的基于迭代对象的函数,而chain函数则是可以串联多个迭代对象来形成一个更大的迭代对象

*的作用:返回单个迭代器。

word_freq是个字典,key=词,value=词频

word_freq = Counter(chain(*corpus)) # Counter 是实现的 dict 的一个子类,可以用来方便地计数,统计词频

valid_words = word_freq.most_common(size - 2) # most_common()函数用来实现Top n 功能,在这里选出Top size-2个词

valid_words = [word for word, value in valid_words if value >= min_feq] # 把符合要求的词找出来放到list里面。

print(‘number of word types: {}, number of word types w/ frequency >= {}: {}’

.format(len(word_freq), min_feq, len(valid_words)))

for word in valid_words: # 将词放进VocabEntry里面。

vocab_entry.add(word)

return vocab_entry

创建完成后将词向量保存到json文件中

vocab = Vocab.build(src_sents, labels, 50000, 3)

print(‘generated vocabulary, source %d words’ % (len(vocab.vocab)))

vocab.save(‘./vocab.json’)

训练

=============================================================

训练使用Train_CNN.py,先看分析main方法的参数。

参数


parse = argparse.ArgumentParser()

parse.add_argument(“–train_data_dir”, default=‘./cnews/cnews.train.txt’, type=str, required=False)

parse.add_argument(“–dev_data_dir”, default=‘./cnews/cnews.val.txt’, type=str, required=False)

parse.add_argument(“–test_data_dir”, default=‘./cnews/cnews.test.txt’, type=str, required=False)

parse.add_argument(“–output_file”, default=‘deep_model.log’, type=str, required=False)

parse.add_argument(“–batch_size”, default=8, type=int)

parse.add_argument(“–do_train”, default=True, action=“store_true”, help=“Whether to run training.”)

parse.add_argument(“–do_test”, default=True, action=“store_true”, help=“Whether to run training.”)

parse.add_argument(“–learnning_rate”, default=5e-4, type=float)

parse.add_argument(“–num_epoch”, default=50, type=int)

parse.add_argument(“–max_vocab_size”, default=50000, type=int)

parse.add_argument(“–min_freq”, default=2, type=int)

parse.add_argument(“–embed_size”, default=300, type=int)

parse.add_argument(“–dropout_rate”, default=0.2, type=float)

parse.add_argument(“–warmup_steps”, default=0, type=int, help=“Linear warmup over warmup_steps.”)

parse.add_argument(“–GRAD_CLIP”, default=1, type=float)

parse.add_argument(“–vocab_path”, default=‘vocab.json’, type=str)

parse.add_argument(“–num_filter”, default=100, type=int, help=“CNN模型一个filter的输出channels”)

参数说明:

train_data_dir:训练集路径。

dev_data_dir:验证集路径

test_data_dir:测试集路径

output_file:输出的log路径

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值