基于卷积神经网络的商品评论情感分析的研究(小记)

从句子结构和词向量出发,设计了基于特征融合的分段卷积神经网络文本情感分析模型,分段提取句子的主要特征,利用词性特征和词向量融合的方法,解决词向量无法区分同义词的问题。与传统文本卷积神经网络相比,用精确率、召回率和F1值作为评判指标。

普通的基于卷积神经网络的文本情感分析主要两个缺陷:词向量训练无法区分一词多义现象,文本词向量表示不准确,容易发生过拟合现象;从句子特征提取一个最大的值,没有进行多段分析,尤其是对于转折句,容易提取到转折前句子中情感词特征,从而进行误判。

 

主要工作:

(1)详细介绍各类传统情感分析方法的优势和不足。分析卷积神经网络在文本情感分析中的应用。

(2)将分词与词性特征结合起来,形成新的词向量,解决词向量无法区分同义词的问题。

(3)改进卷积神经网络,分段提取文本特征。

分词:常见的jieba.ictclas.盘古分词等。

停用词处理,没有实际意义的语气词。

词性标注:判定句子中每个词的词性并加以标注。

人工神经网络:卷积,循环(半监督学习可以解决大量样本只有少量标注的训练问题,对于减少标注代价和提升神经网络性能具有重要意义)

训练方法:误差逆传播算法,也是训练最成功的算法,广泛应用于深度学习领域。

 

情感词典:借助于情感词典、情感常识库等第三方情感资源,分析句子中有情感倾向的词语,得出句子情感倾向。英文词典比较成熟,中文词典一般是知网情感词典how net和台湾大学的简体中午情感词典NTUSD,HowNet使用最广泛。

 

机器学习:分词,去除停用词,词性标注,从处理过的文本中选择合适的特征是构建分类器的重点,特征加权区分特征重要程度,文本向量化。数据集训练分类器。

特征选择:卡方检验,期望交叉熵,互信息。

特征加权:布尔权重,频率,tf-idf

分类器:逻辑回归,支持向量机,k近邻,朴素贝叶斯。

商品评论属于网络短文本:语言简洁且不规范,字符数量差距大

 

卷积神经网络输入为矩阵形式:长度为n的句子,w={w1,w2,...,wn};词性标注p={p1,p2,..,pn},文本拼接:X={(w1,p1),(w2,p2),....,(wn,pn2)},利用word2vec将序列X表示为n*d矩阵,d为词向量维度。

 

word2vec将句子中每个词转化为词向量拼接为矩阵,一行对应一个词,cnn在文本中的特征提取只能从上往下。

 

传统cnn采用最大池化,未考虑句子结构特征句子情感倾向转折,影响句子情感分类。为捕获不同结构关键特征,采用分段池化。

卷积层输出卷积向量分成若干片段,每个片段是一个小卷积向量,对每个小卷积向量做最大池化,分别提取最大特征,将这些最大特征拼接为新的特征向量,传递给全连接层。

 

 

池化层对卷积层提取特征进行筛选,输出局部最优特征,进行非线性降维。合并特征。

本文将Ci平均分为t段,在每段中取最大值,将取出的最大值拼接为向量^c。

最后用全连接层判断特征类别。使用softmax分类器。

 

激活函数选用relu,解决梯度消失问题。问题:负半轴神经元得不到训练。

用dropout防止出现过拟合。神经元的缺失导致局部特征的减少,神经网络模型有更强的泛化能力。

 

中文酒店评论数据集ChnSentiCorp-Htl-ba-6000,正负向各3000条。

京东服装平台的10000条评论,正负各五千条。训练集:测试集=8:2

最优参数:

 

 

评估标准:P.R.F1

结果:

 

训练时间:cnn:7s,lstm:673秒,pcnn:29秒,pf-cnn:39s。

展望:人类情感复杂多样,如何对文本进行更复杂的情感分析;结合商品属性来分析情感倾向;结合注意力机制。

展望:人类情感复杂多样,如何对文本进行更复杂的情感分析;结合商品属性来分析情感倾向;结合注意力机制。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值