文本分类练习记录

本文记录了一次在cnew数据集上进行文本分类的实践,涉及数据预处理、模型构建(使用CNN和LSTM)及训练过程。数据预处理包括生成字典和ID转换,模型使用了TensorFlow框架,通过embedding、CNN/LSTM特征提取和全连接分类层实现。训练过程中,间隔一定batch使用验证集,并在验证和测试时关闭dropout。
摘要由CSDN通过智能技术生成

这周主要复习了一个开源项目,在cnew数据集上做文本分类,简单的记录一下,方便以后查看。

1.首先是数据集的介绍:
cnew是一个中文的新闻数据集,标签主要有[‘体育’,‘’]10个分类,分为训练集,验证集和测试集。
数据预处理部分就是一般的自然语言处理的标准过程(没有使用到分词工具,是按照字符级进行训练的),包括生成字典,把words和labels转换成对应的id, 生成批数据。

2.模型部分
模型主要使用了cnn和lstm,框架使用的是tensorflow。
模型分三个部分:
embedding层,使用tensorflow自带的函数embedding_lookup()将输入的句子的维度转换成[batch_size, max_length, word_embedding_dim]
特征提取层,这里使用两种不同的特征提取器。
cnn作为特征提取器时,一般是conv-dropout-activate,卷积核的大小是kernel_size,使用的卷积核的数目是filter_nums,经过卷积操作处理后的sequence的大小是[batch_size,max_length-kernel_size+1,filter_nums],如果使用池化操作,可以选择max_pooling, average_pooling等,大小是[batch_size, filter_nums]
lstm作为特征提取器,隐藏层的节点个是hidden_dim,本文使用的两层lstm(注意这里使用的两层lstm是同方向的,和双向lstm是不同的),在层之间可以使

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值