使用词向量 + lstm 做情感分析

这次的数据集来自github,万分感激原作者的收集,数据集是京东的购物评论,分为正面情绪以及负面情绪的两个文本。

其中,正面情绪样本947条, 负面情绪样本2142条。

使用全部的单词,做词向量的训练。词向量使用gensim训练,非常地方便和快捷,强推强推!

先上词向量的代码,词向量维数100维:

from gensim.models.word2vec import Word2Vec
import text_util

pos = text_util.load_txt("pos.txt")
neg = text_util.load_txt("neg.txt")

pos_list = text_util.seg_words(pos)
neg_list = text_util.seg_words(neg)

#创建词向量模型 由于语料库样本少 保留全部词汇进行训练
model = Word2Vec(pos_list + neg_list, sg=1, size=100,  window=5,  min_count=1,  negative=3, sample=0.001, hs=1, workers=4)

#检测词向量之间关系
model.similarity(u"好用", u"不错")

#保存模型
model.save("评论.model")

词向量训练完毕后,因为后面的语料预处理中有使用到CountVectorizer和TfidfVectorizer,而他们都会过滤长度为1的中文单词,这是个坑坑坑,于是笔者参考博客 http://www.cnblogs.com/zz22--/p/9492720.html, 修改了python源码中的内容,具体参考可见博客。

准备工作完成,开始使用lstm进行情感分析地训练:

(1)语料的处理

#载入数据
pos = textutil.load_txt("pos.txt")
neg = textutil.load_txt("neg.txt")

#分词,处理数据
pos = textutil.seg_words_with_blank(pos)
neg = textutil.seg_words_with_blank(neg)

#混合数据
randIt = []
data = []
labels = []
for i in range(len(pos)):
    randIt.append([pos[i],[0,1]]) #正面
for i in range(len(neg)):
    randIt.append([neg[i],[1,0]]) #负面
for i in range(len(randIt)):
    data.append(randIt[i][0])
    labels.append(randIt[i][1])

#调整超参数的设置
batch_size = 50 #样本数
lstm_size = 128 #lstm cell里面的神经元数目
num_layers = 3#堆叠
target_classes = 2#最终分为2类
learning_rate = 0.001
keep_prob = 0.5
num_keywords = 2000
word_classes = 100 #词向量维数为100维

#提取关键字
keywords = textutil.key_words(data,num_keywords)

#创建由关键字组成的稀疏矩阵
textmatrix = textutil.count_sparse_matrix(data,True)
textmatrix = textmatrix[keywords]

#整理数据
wordlists, steps = textutil.matrix_to_wordlists(textmatrix)
worddata = pd.DataFrame({"
  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值