使用词向量 + lstm 做情感分析

最新推荐文章于 2024-08-13 13:11:20 发布

小欣爱吃糖

最新推荐文章于 2024-08-13 13:11:20 发布

阅读量6.7k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_33335484/article/details/82772549

版权

利用京东购物评论数据集，包含947条正面和2142条负面情绪样本，通过gensim训练词向量，解决CountVectorizer和TfidfVectorizer对单字符中文词的过滤问题，然后应用LSTM进行情感分析训练。详细步骤包括语料预处理、训练集测试集划分、LSTM网络构建及训练。

摘要由CSDN通过智能技术生成

这次的数据集来自github，万分感激原作者的收集，数据集是京东的购物评论，分为正面情绪以及负面情绪的两个文本。

其中，正面情绪样本947条，负面情绪样本2142条。

使用全部的单词，做词向量的训练。词向量使用gensim训练，非常地方便和快捷，强推强推！

先上词向量的代码，词向量维数100维：

from gensim.models.word2vec import Word2Vec
import text_util

pos = text_util.load_txt("pos.txt")
neg = text_util.load_txt("neg.txt")

pos_list = text_util.seg_words(pos)
neg_list = text_util.seg_words(neg)

#创建词向量模型 由于语料库样本少 保留全部词汇进行训练
model = Word2Vec(pos_list + neg_list, sg=1, size=100,  window=5,  min_count=1,  negative=3, sample=0.001, hs=1, workers=4)

#检测词向量之间关系
model.similarity(u"好用", u"不错")

#保存模型
model.save("评论.model")

词向量训练完毕后，因为后面的语料预处理中有使用到CountVectorizer和TfidfVectorizer，而他们都会过滤长度为1的中文单词，这是个坑坑坑，于是笔者参考博客 http://www.cnblogs.com/zz22--/p/9492720.html，修改了python源码中的内容，具体参考可见博客。

准备工作完成，开始使用lstm进行情感分析地训练：

（1）语料的处理

#载入数据
pos = textutil.load_txt("pos.txt")
neg = textutil.load_txt("neg.txt")

#分词，处理数据
pos = textutil.seg_words_with_blank(pos)
neg = textutil.seg_words_with_blank(neg)

#混合数据
randIt = []
data = []
labels = []
for i in range(len(pos)):
    randIt.append([pos[i],[0,1]]) #正面
for i in range(len(neg)):
    randIt.append([neg[i],[1,0]]) #负面
for i in range(len(randIt)):
    data.append(randIt[i][0])
    labels.append(randIt[i][1])

#调整超参数的设置
batch_size = 50 #样本数
lstm_size = 128 #lstm cell里面的神经元数目
num_layers = 3#堆叠
target_classes = 2#最终分为2类
learning_rate = 0.001
keep_prob = 0.5
num_keywords = 2000
word_classes = 100 #词向量维数为100维

#提取关键字
keywords = textutil.key_words(data,num_keywords)

#创建由关键字组成的稀疏矩阵
textmatrix = textutil.count_sparse_matrix(data,True)
textmatrix = textmatrix[keywords]

#整理数据
wordlists, steps = textutil.matrix_to_wordlists(textmatrix)
worddata = pd.DataFrame({"