这次的数据集来自github,万分感激原作者的收集,数据集是京东的购物评论,分为正面情绪以及负面情绪的两个文本。
其中,正面情绪样本947条, 负面情绪样本2142条。
使用全部的单词,做词向量的训练。词向量使用gensim训练,非常地方便和快捷,强推强推!
先上词向量的代码,词向量维数100维:
from gensim.models.word2vec import Word2Vec
import text_util
pos = text_util.load_txt("pos.txt")
neg = text_util.load_txt("neg.txt")
pos_list = text_util.seg_words(pos)
neg_list = text_util.seg_words(neg)
#创建词向量模型 由于语料库样本少 保留全部词汇进行训练
model = Word2Vec(pos_list + neg_list, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1, workers=4)
#检测词向量之间关系
model.similarity(u"好用", u"不错")
#保存模型
model.save("评论.model")
词向量训练完毕后,因为后面的语料预处理中有使用到CountVectorizer和TfidfVectorizer,而他们都会过滤长度为1的中文单词,这是个坑坑坑,于是笔者参考博客 http://www.cnblogs.com/zz22--/p/9492720.html, 修改了python源码中的内容,具体参考可见博客。
准备工作完成,开始使用lstm进行情感分析地训练:
(1)语料的处理
#载入数据
pos = textutil.load_txt("pos.txt")
neg = textutil.load_txt("neg.txt")
#分词,处理数据
pos = textutil.seg_words_with_blank(pos)
neg = textutil.seg_words_with_blank(neg)
#混合数据
randIt = []
data = []
labels = []
for i in range(len(pos)):
randIt.append([pos[i],[0,1]]) #正面
for i in range(len(neg)):
randIt.append([neg[i],[1,0]]) #负面
for i in range(len(randIt)):
data.append(randIt[i][0])
labels.append(randIt[i][1])
#调整超参数的设置
batch_size = 50 #样本数
lstm_size = 128 #lstm cell里面的神经元数目
num_layers = 3#堆叠
target_classes = 2#最终分为2类
learning_rate = 0.001
keep_prob = 0.5
num_keywords = 2000
word_classes = 100 #词向量维数为100维
#提取关键字
keywords = textutil.key_words(data,num_keywords)
#创建由关键字组成的稀疏矩阵
textmatrix = textutil.count_sparse_matrix(data,True)
textmatrix = textmatrix[keywords]
#整理数据
wordlists, steps = textutil.matrix_to_wordlists(textmatrix)
worddata = pd.DataFrame({"