keras 用LSTM搭建一个语言情感分类器 - keras 进阶教程

最新推荐文章于 2022-08-01 20:09:27 发布

蓝一潇、薛定谔的猫

最新推荐文章于 2022-08-01 20:09:27 发布

阅读量2.4k

点赞数 2

分类专栏：自然语言处理机器学习-技术篇 python基础笔记文章标签： keras lstm 情感分类 nlp 机器学习

本文链接：https://blog.csdn.net/weixin_42744102/article/details/90613904

版权

python基础笔记同时被 3 个专栏收录

39 篇文章 4 订阅

订阅专栏

机器学习-技术篇

15 篇文章 0 订阅

订阅专栏

自然语言处理

11 篇文章 6 订阅

订阅专栏

鉴于很多人最近问我LSTM的API在keras中怎么用，怎么总是报错，我觉得写一个博客，搭建一个最小化的语言情感分类模型，这样大家就能一通百通了。
这个讲解会主要侧重于LSTM中的数据维度处理。

这里就不谈LSTM的原理了，大家肯定没少看到过那个经典的LSTM cell结构图。

那么，第一步做什么呢？

首先，我们需要一个数据集，用word2vec来做word embeding（即将词转化为向量的形式，让计算机看得懂）。我们用一个带标签（1是好评 0是差评）的影评数据集（我就不给了，大家自己找，哪儿都有的，比如imdb数据集）。
具体方法是，首先将每条影评的句子分词，将每个词按顺序放到一个列表里面，代表句子；然后再把这个代表句子的列表用一个更大的列表装起来。这时候，我们得到了一个三维的列表（大家仔细想想就明白了），代表整个语料库，我们叫他sentences。

第二步，用gensim训练词向量Word2Vec模型。

from gensim.models import Word2Vec


w2v_model = Word2Vec(sentences=sentences)

训练完不出意外，大家就得到了word2vec语言模型。这样，我们只需要对w2v_model用键值对的方式取值，以每一个单词为key，一个特定大小的矩阵（即词向量）为value。
第三步，这样一个自然语言的句子，就被转化成一个二维的矩阵表示，（就是对于一个句子，句子中每个词用他的词向量表示，一个句子中有单词数量个一维的词向量，整个句子就是个二维的）。这块代码不难，让大家自己来实现。
现在我们可以从中抽取10条数据，然后给数据一个对应的标签列表（好评1，差评0）

好了，现在我们要搭建LSTM网络了。
我们用最经典的栈式LSTM。它传入的数据是三维的（batch_size, timestep, data_dim）怎么理解呢？往往出现了和“time”有关的维度就让许多人摸不着头脑了。事实上大家不要觉得头疼，是这样的：
batch_size：每次训练的时候，传入的评论的条数，这个维度默认为None，也就是说不用自己指定，你每次传入10条评论也是训练，传入1条评论也是训练，不会报错；写在这里，就是你知道每次传入的是一个三维数据。我们搭建模型的时候，只需要指定timestamp和data_dim两个维度的大小就可以了。
timestamp：相当于一条评论里面，词语的个数。诚然，每条评论的单词长度都不可能一样，因此我们需要有所舍弃，比如每条评论只保留前五个词。这个舍弃的过程就是在上面的第三步里面进行处理，让每条评论数据样本只保留五个词。
data_dim：词向量的维度。假如训练词向量的时候不自己指定，那么gensim的Word2Vec模型就默认维度是100。
明白了吗？所以这个LSTM层的input_shape=（5，100）# batch不用写哦，传入一个双元组就可以。
模型搭建代码如下：

model = Sequential()
model.add(LSTM(32, return_sequences=True,
               input_shape=(5, 100)))
model.add(LSTM(128))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

当然，keras中所有的层都一样，只有输入层需要指定维度，之后的隐藏层、中间层全都给你自动推断维度。
模型的输出是一个介于0到1之间的值，代表的是“好评”（正样本）的概率。

注：有些人总是问，为啥这模型一会儿报错说需要2D数据，一会儿报错说需要3D数据？这里的任督二脉就是，当每一个sample都是2D张量时，传入模型的数据形状就是3D的张量。剩下的那个维度，是batch，也就是batch个2D向量叠起来送进去，自然是个3D的形状。

那么，开始训练，送入第三步生成的样本和标签，开始迭代。

接下来，你成功了。你会发现自己已经成功搭建了一个基于LSTM的情感分类模型。

我也为这个教程写了个demo。有一个无标注的数据集在t.txt里面（就是一条影评为一行，有若干行的数据集），并抽出前十条数据加上标签作为训练集和测试集。

# coding:utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')

f = open('t.txt')
f_sentence = f.readlines()

sentences = []

for s in f_sentence:
    sentences.append(s.split(' '))

sentence = sentences[:10]

from gensim.models import Word2Vec
import numpy as np

w2v_model = Word2Vec(sentences=sentences,)

v_sentences = []

for s in sentence:

    v_s = []

    k = 0

    for w in s:
        if k == 5:break

        try:
            k+=1

            v_s.append(w2v_model[w])
            # print(w2v_model[w])

        except:

            print('Exception:', w)

    v_sentences.append(np.array(v_s))

from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.layers import Embedding
from keras.layers import LSTM

model = Sequential()
model.add(LSTM(32, return_sequences=True,
               input_shape=(5, 100)))
model.add(LSTM(128))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

x_train = x_test = np.array(v_sentences)

y_train = y_test = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# print(model.layers)
# print(model.model)
# print(model.input)

model.fit(x_train, y_train, batch_size=16, epochs=250)
# score = model.evaluate(x_test, y_test, batch_size=16)

print(model.predict(x_train))

训练数据的标签：[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
对训练集的预测输出：
[[9.9999964e-01]
 [9.9999964e-01]
 [9.9999964e-01]
 [9.9999964e-01]
 [9.9999905e-01]
 [2.1139577e-07]
 [6.4491445e-07]
 [2.1315172e-07]
 [6.7481409e-07]
 [4.7484136e-07]]

效果还不错哦～

好了，大家明白了吗？如果有不明白的或者发现了我的错误，欢迎联系我～工作邮箱：1012950361@qq.com 谢谢大家～