从代码学AI ——情感分类(LSTM on TFlearn)

最新推荐文章于 2024-06-21 00:27:52 发布

Jerry_xl

最新推荐文章于 2024-06-21 00:27:52 发布

阅读量3.1k

点赞数 4

分类专栏：深度学习文章标签： tflearn LSTM Embedding

本文链接：https://blog.csdn.net/hitxueliang/article/details/77550819

版权

前言

本篇文章会从代码的角度说明如何基于TFlearn使用LSTM进行文本的情感分类。如果对于TFlearn和LSTM都不熟悉，没有关系，先硬着头皮将代码看下(使用LSTM对IMDB数据集进行情感分类)。从代码的角度看都是很简洁的，所以即使不熟悉，多看看代码，当代码已经熟练于心了，后面如果有一天你漠然回首理解了其中的不解后，你的记忆更加深刻。所以不懂、不熟悉没关系，坚持下去就回明白的。

由于实例代码使用的是IMDB数据集，所以这里会优先介绍一下这个数据集。

IMDB数据集

该数据集包含了电影的评论以及评论对应的情感分类的标签(0,1分类)。作者的初衷是希望该数据集会成为情绪分类的一个基准。这里介绍该数据集如何生成的以及如何使用提供的文件。

核心数据集包含了5万条评论数据，这些数据被均分成训练集和测试集(训练和测试集各2.5万)。标签也是均衡分布的(正负样本各2.5万)。也提供了5万条无标签数据，以用于无监督学习。

在数据集中，每个电影最多收集30条评论，因为同一个电影的评论往往具有相关性。同时训练集和测试集采集的是不同的电影，所以尝试去记住和电影强相关的词汇以及相关的标签是不会取得显著的提升效果的。

在训练和测试集中，负面结果的分值<=4,正面结果的分值>=10.中性的评论没有包含在测试和训练集合中。在无监督的数据集中包含任意评分的评论。

对于下载下来的数据集的文件结构大致如下：

有两个顶级文件夹[train/, test/],对应训练集和测试集。每个都包含了[pos/, neg/]目录，在这些文件夹中，评论数据以如下方式存储：[[id]_[rating].txt]。这里id表示唯一性ID，rating表示评分，例如[test/pos/200_8.txt]表示正面评论，id是200，评分是8分。
无监督数据集中[train/unsup/]所有的评分都是0，因为所有的评分都被省略了。

数据集中也包含了每个评论对应电影的评论页面的URL，由于电影的评论数据是动态变化的，所以不能指定评论的URL，只能指定电影评论页面的URL。评论文件在如下文件中：
[urls_[pos, neg, unsup].txt]

对于评论的数据文件，数据集中已经包含了训练好的词袋模型(BoW).这些数据存储在.feat文件中。

每个.feat文件都是LIBSVM格式，一种用于标记数据的ascii的稀疏向量格式。
这些文件中的特征索引从0开始，且特征索引对应的词汇对应着[imdb.vocab]中相应的词汇。所以一个在.feat文件中以0:7的形式表示[imdb.vocab]中的第一个单词,在该评论中出现7次

LIBSVM相关资料参见:LIBSVM

数据集中也包含了一个[imdbEr.txt]文件，这里存储了[imdb.vocab]中每个词的情感评分。预期评级是了解数据集中单词的平均极性的好方法。

数据集介绍就到这里，下面开始代码解读。

代码解读

# -*- coding: utf-8 -*-
"""

https://www.tensorfl

最低0.47元/天解锁文章

Jerry_xl

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
从代码学AI ——情感分类(LSTM on TFlearn)

前言本篇文章会从代码的角度说明如何基于TFlearn使用LSTM进行文本的情感分类。如果对于TFlearn和LSTM都不熟悉，没有关系，先硬着头皮将代码看下(使用LSTM对IMDB数据集进行情感分类)。从代码的角度看都是很简洁的，所以即使不熟悉，多看看代码，当代码已经熟练于心了，后面如果有一天你漠然回首理解了其中的不解后，你的记忆更加深刻。所以不懂、不熟悉没关系，坚持下去就回明白的。由于实例代码使用
复制链接

扫一扫

专栏目录