python中tensorflow实现二分类_Tensorflow实现CNN文本分类

最新推荐文章于 2024-05-14 02:34:55 发布

weixin_39850787

最新推荐文章于 2024-05-14 02:34:55 发布

阅读量873

点赞数

文章标签： python中tensorflow实现二分类

本文链接：https://blog.csdn.net/weixin_39850787/article/details/113650310

版权

本文介绍了如何使用Tensorflow实现CNN进行文本分类。首先讲解了CNN的卷积层和池化层的工作原理，然后简述了Tensorflow在深度学习领域的应用。接着提到了Word2Vec在NLP中的作用，最后详细阐述了如何构建和训练一个CNN模型进行文本分类，包括数据预处理、网络模型构建以及训练过程中的损失计算和优化方法。

摘要由CSDN通过智能技术生成

摘要：本文主要是用于学习。从实践中出发，利用TensorFlow解决NLP中的分类问题，主要包括多分类、多标签分类问题。我打算学习深度学习中的不同算法进行探讨研究，主要包括CNN、LSTM、Fasttext、seq2seq等一系列算法，在实际应用中的一些问题及track。这是本系列的第一篇文章，主要介绍了CNN卷积神经网络的原理，以及使用Tensorflow实现CNN文本分类的编码实现。

CNN卷积神经网络简介

神经网络Neural Networks方面的研究在国外是从很早很早就已经开始发展了，从最开始的浅层神经网络ANN算法研究，到BP反馈神经网络的发展，以及现在非常火的深度学习神经网络。都是想要对单个神经元进行建模，模拟人脑神经网络系统的功能，从而构建一个网络，具有学习的能力。BP神经网络，深度学习神经网络都是遵循一个最基本的特点：前向传播数据信号，反向传播误差值。从而让神经网络学习拟合到一个较好的状态。

卷积层

对于卷积层，其中核心即是通过卷积核(filter)计算提取特征feature map。对于卷积操作而言，通过每一个filter和input卷积计算，则会得到一个新的二维数组，可以理解为对原始输入进行特征提取，一般表示为feature map，filter的个数影响feature map的数量，卷积层的输出维度则和卷积核以及输入相关，一般计算卷积输出有公式如下,其中W：输入；F：卷积核；P：0填充；S：步长。

ff8e5f4635cc

feature map 长度计算公式

在整个计算卷积计算的过程中，主要有两个重要的特性：1.局部连通 2.参数共享

1. 局部连通：CNN和全连接神经网络不一样的地方在于，CNN的神经元和下一层的神经元并不是全连接的，而是通过不同的卷积核(filter)，针对样本某一局部的数据窗口进行卷积计算，卷积核就好比学习对象，不同的卷积核对同样的输入样本进行学习、特征提取，最好的即是每一个卷积核都提取到样本不同的特征，比如对于图片而言，不同的filter可能提取图片的颜色深浅，轮廓等特征，每个filter都是对输入数据的局部进行计算处理，这就是CNN的局部连通特点。

2. 参数共享：对于同一个filter而言，可以当成是提取特征的容器，用相同的filter提取特征，而与样本的输入位置无关，表示在输入样本的所有区域，都能够使用相同的学习特征，虽然样本局部的数据在变化，可是每一个filter的权重是固定不变的，这个即是CNN的参数共享特点，它降低了整个网络的复杂性。

池化层

在CNN网络中另外一个非常重要的操作则是池化操作，池化可以将一幅大的图像缩小，同时又保留其中的重要信息。它就是将输入图像进行缩小，减少像素信息，只保留重要信息。通常情况下，池化都是22大小，比如对于max-pooling来说，就是取输入图像中22大小的块中最大值，作为结果的像素值，相当于将原始图像缩小了4倍。(注：同理，对于average-pooling来说，就是取2*2大小块的平均值作为结果的像素值。)因为最大池化(max-pooling)保留了每一个小块内的最大值，所以它相当于保留了这一块最佳的匹配结果(因为值越接近1表示匹配越好)。这也就意味着它不会具体关注窗口内到底是哪一个地方匹配了，

Tensorflow简介

对于Tensorflow,我想现在大部分的研究人员都不陌生，可是为什么Tensorflow在整个深度学习领域会变得如此的流行？毫无疑问的是，因为Tensorflow的流行让深度学习的门槛变得越来越低了，只要有python和机器学习基础，使得实现以及应用神经网络模型变得非常简单易上手。以前要编码实现一个神经网络，需要对前馈传播，反向传播有很深刻的理解，并需要花费一定的时间进行编码开发，所以Tensorflow的出现，大大降低了深度神经网络的开发成本和开发难度，使得算法研究人员能够快速验证算法的适用性，能够将更多的精力放到网