cnn完成文本分类

最新推荐文章于 2024-05-03 16:39:02 发布

sorrythanku

最新推荐文章于 2024-05-03 16:39:02 发布

阅读量6.5k

点赞数 2

分类专栏： nlp

本文链接：https://blog.csdn.net/starmoth/article/details/88581383

版权

本文介绍了CNN在文本分类中的应用，从CNN的基本结构到TextCNN的模型设计，包括输入层、卷积层、池化层、全连接层及Softmax层。还讨论了模型效果评估与调优的参数，以及文本分类中常见的数据集类别不均衡问题及其解决方案，旨在帮助读者深入理解CNN在文本分类任务中的工作原理和实践策略。

摘要由CSDN通过智能技术生成

1.cnn结构

（1）输入层（input layer）

图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层，计算机理解为输入若干个矩阵，这点和DNN基本相同。

（2）卷积层（Convolution Layer）

这个是CNN特有的，卷积层中每一个结点的输入只是上一层神经网络的一小块，这个小块常用大小有3x3和5x5.一般来说，通过卷积层处理过的节点会使得矩阵变的更深。卷积层的激活函数使用的是ReLU。我们在DNN中介绍过ReLU的激活函数，它其实很简单，就是ReLU(x)=max(0,x)。我们后面专门来讲。

（3）池化层（pooling layer）

在卷积层后面是池化层(Pooling layer)，这个也是CNN特有的，我们后面也会专门来讲。需要注意的是，池化层没有激活函数。他不会改变三维矩阵的深度，但是可以缩小矩阵的大小，从而达到减少整个网络中参数的目的。

卷积层+池化层的组合可以在隐藏层出现很多次，上图中出现两次。而实际上这个次数是根据模型的需要而来的。当然我们也可以灵活使用使用卷积层+卷积层，或者卷积层+卷积层+池化层的组合，这些在构建模型的时候没有限制。但是最常见的CNN都是若干卷积层+池化层的组合，如上图中的CNN结构。

（4）全连接层（Fully Connected Layer）& Softmax层

在若干卷积层+池化层后面是全连接层（Fully Connected Layer, 简称FC），全连接层其实就是我们讲的DNN结构，只是输出层使用了Softmax激活函数来做图像识别的分类，这点和DNN中也一样。

2.TextCNN结构

TextCNN的结构比较简单，输入数据首先通过一个embedding layer，得到输入语句的embedding表示，然后通过一个convolution layer，提取语句的特征，最后通过一个fully connected layer得到最终的输出，整个模型的结构如下图：

在这里插入图片描述

3.模型的效果评估与调优

针对分类问题，一般可以使用准确率、召回率、F1值、混淆矩阵等指标，在文本多标签分类中一般还会考虑标签的位置加权等问题。分类模型中的主要参数：词向量的维度、卷积核的个数、卷积核的窗口值、L2的参数、DropOut的参数、学习率等。这是在模型优化的过程中需要重点关注的参数。此外，一般数据集的类别不均衡问题对模型的影响也是比较显著的，可以尝试使用不同的方法，评估不同方案的模型效果。

4. 文本分类中经常遇到的问题

1.数据集类别不均衡即语料集中，各个类别下的样本数量差异较大，会影响最终文本分类模型的效果。主要存在两类解决方案：（1）调整数据：数据增强处理，NLP中一般随分词后的词序列进行随机的打乱顺序、丢弃某些词汇然后分层的采样的方式来构造新的样本数据。（2）使用代价敏感函数：例如图像识别中的Focal Loss等。2.文本分类模型的泛化能力首先，对于一个未知的样本数据，分类模型只能给出分类标签中的一个，无法解决不属于分类标签体系的样本。我们无法预知未来的数据会是什么样的，也不能保证未来的所有分类情况在训练集中都已经出现过！剩下影响分类模型泛化能力的就是模型过拟合的问题了。如何防止过拟合？那就是老生常谈的问题了：（1）数据上：交叉验证（2）模型上：使用DropOut、BatchNorm、正则项、Early Stop。

理论详细参考:https://blog.csdn.net/v_july_v/article/details/51812459

import tensorflow as tf
import numpy as np
import os
import time
import datetime
import data_loader
from cnn_graph import TextCNN
from tensorflow.contrib import learn
from sklearn import cross_validation
import preprocessing

# Model Hyperparameters
tf.flags.DEFINE_integer("embedding_dim", 200, "Dimensionality of character embedding (default: 128)")
tf.flags.DEFINE_string("filter_sizes", "3,4,5", "Comma-separated filter sizes (default: '3,4,5')")
tf.flags.DEFINE_integer("num_filters", 40, "Number of filters per filter size (default: 128)")
tf.flags.DEFINE_float("dropout_keep_prob", 0.5, "Dropout keep probability (default: 0.5)")
tf.flags.DEFINE_float("l2_reg_lambda", 3.0, "L2 regularizaion lambda (default: 0.0)")

# Training parameters
tf.flags.DEFINE_integer("batch_size", 50, "Batch Size (default: 64)")
tf.flags.DEFINE_integer("num_epochs", 100, "Number of training epochs (default: 200)")
tf.flags.DEFINE_integer("evaluate_every", 100, "Evaluate model on dev set after this many steps (default: 100)")
tf.flags.DEFINE_integer("checkpoint_every", 100, "Save model after this many steps (default: 100)")
# Misc Parameters
tf.flags.DEFINE_boolean("allow_soft_placement", True, "Allow device soft device placement")
tf.flags.DEFINE_boolean("log_device_placement", False, "Log placement of ops on devices")

# w2v文件路径
tf.flags.DEFINE_string("w2v_path", "./w2v_model/retrain_vectors_100.bin", "w2v file")
tf.flags.DEFINE_string("file_dir","./data_process/jd","train/test dataSet")

FLAGS = tf.flags.FLAGS
FLAGS._parse_flags()
print("\nParameters:")
for attr, value in sorted(FLAGS.__flags.items()):
    print("{}={}".format(attr.upper(), value))
print("")


# Data Preparatopn
# ==================================================

# Load data
print("Loading data...")
files = ["reviews.neg","reviews.pos"]