keras 用LSTM搭建一个语言情感分类器 - keras 进阶教程

鉴于很多人最近问我LSTM的API在keras中怎么用,怎么总是报错,我觉得写一个博客,搭建一个最小化的语言情感分类模型,这样大家就能一通百通了。
这个讲解会主要侧重于LSTM中的数据维度处理

这里就不谈LSTM的原理了,大家肯定没少看到过那个经典的LSTM cell结构图。

那么,第一步做什么呢?

首先,我们需要一个数据集,用word2vec来做word embeding(即将词转化为向量的形式,让计算机看得懂)。我们用一个带标签(1是好评 0是差评)的影评数据集(我就不给了,大家自己找,哪儿都有的,比如imdb数据集)。
具体方法是,首先将每条影评的句子分词,将每个词按顺序放到一个列表里面,代表句子;然后再把这个代表句子的列表用一个更大的列表装起来。这时候,我们得到了一个三维的列表(大家仔细想想就明白了),代表整个语料库,我们叫他sentences。

第二步,用gensim训练词向量Word2Vec模型。

from gensim.models import Word2Vec


w2v_model = Word2Vec(sentences=sentences)

训练完不出意外,大家就得到了word2vec语言模型。这样,我们只需要对w2v_model用键值对的方式取值,以每一个单词为key,一个特定大小的矩阵(即词向量)为value
第三步,这样一个自然语言的句子,就被转化成一个二维的矩阵表示,(就是对于一个句子,句子中每个词用他的词向量表示,一个句子中有单词数量个一维的词向量,整个句子就是个二维的)。这块代码不难,让大家自己来实现
现在我们可以从中抽取10条数据,然后给数据一个对应的标签列表(好评1,差评0)

好了,现在我们要搭建LSTM网络了。
我们用最经典的栈式LSTM。它传入的数据是三维的(batch_size, timestep, data_dim)怎么理解呢?往往出现了和“time”有关的维度就让许多人摸不着头脑了。事实上大家不要觉得头疼,是这样的:
batch_size:每次训练的时候,传入的评论的条数,这个维度默认为None,也就是说不用自己指定,你每次传入10条评论也是训练,传入1条评论也是训练,不会报错;写在这里,就是你知道每次传入的是一个三维数据。我们搭建模型的时候,只需要指定timestamp和data_dim两个维度的大小就可以了。
timestamp:相当于一条评论里面,词语的个数。诚然,每条评论的单词长度都不可能一样,因此我们需要有所舍弃,比如每条评论只保留前五个词。这个舍弃的过程就是在上面的第三步里面进行处理,让每条评论数据样本只保留五个词。
data_dim:词向量的维度。假如训练词向量的时候不自己指定,那么gensim的Word2Vec模型就默认维度是100
明白了吗?所以这个LSTM层的input_shape=(5,100)# batch不用写哦,传入一个双元组就可以。
模型搭建代码如下:

model = Sequential()
model.add(LSTM(32, return_sequences=True,
               input_shape=(5, 100)))
model.add(LSTM(128))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

当然,keras中所有的层都一样,只有输入层需要指定维度,之后的隐藏层、中间层全都给你自动推断维度。
模型的输出是一个介于0到1之间的值,代表的是“好评”(正样本)的概率。

注:有些人总是问,为啥这模型一会儿报错说需要2D数据,一会儿报错说需要3D数据?这里的任督二脉就是,当每一个sample都是2D张量时,传入模型的数据形状就是3D的张量。剩下的那个维度,是batch,也就是batch个2D向量叠起来送进去,自然是个3D的形状。

那么,开始训练,送入第三步生成的样本和标签,开始迭代。

接下来,你成功了。你会发现自己已经成功搭建了一个基于LSTM的情感分类模型。

我也为这个教程写了个demo。有一个无标注的数据集在t.txt里面(就是一条影评为一行,有若干行的数据集),并抽出前十条数据加上标签作为训练集和测试集。

# coding:utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')

f = open('t.txt')
f_sentence = f.readlines()

sentences = []

for s in f_sentence:
    sentences.append(s.split(' '))

sentence = sentences[:10]

from gensim.models import Word2Vec
import numpy as np

w2v_model = Word2Vec(sentences=sentences,)

v_sentences = []

for s in sentence:

    v_s = []

    k = 0

    for w in s:
        if k == 5:break

        try:
            k+=1

            v_s.append(w2v_model[w])
            # print(w2v_model[w])

        except:

            print('Exception:', w)

    v_sentences.append(np.array(v_s))

from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.layers import Embedding
from keras.layers import LSTM

model = Sequential()
model.add(LSTM(32, return_sequences=True,
               input_shape=(5, 100)))
model.add(LSTM(128))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

x_train = x_test = np.array(v_sentences)

y_train = y_test = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# print(model.layers)
# print(model.model)
# print(model.input)

model.fit(x_train, y_train, batch_size=16, epochs=250)
# score = model.evaluate(x_test, y_test, batch_size=16)

print(model.predict(x_train))

训练数据的标签:[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
对训练集的预测输出:
[[9.9999964e-01]
 [9.9999964e-01]
 [9.9999964e-01]
 [9.9999964e-01]
 [9.9999905e-01]
 [2.1139577e-07]
 [6.4491445e-07]
 [2.1315172e-07]
 [6.7481409e-07]
 [4.7484136e-07]]

效果还不错哦~

好了,大家明白了吗?如果有不明白的或者发现了我的错误,欢迎联系我~工作邮箱:1012950361@qq.com 谢谢大家~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值