目录
摘要
本周在论文阅方面,阅读了一篇基于多通道LSTM的不平衡情绪分类方法的论文,LSTM在分类不平衡情绪样本上有着良好的效果。在深度学习上,学习了另一种优化算法:遗传算法。用于解决最佳化的搜索算法之一。
This week,in terms of thesis reading,a paper on the classification method of unbalanced emotions based on multi-channel LSTM is perusal.LSTM has a good effect in classifying unbalanced emotion samples.In deep learning,learning another optimization algorithm: genetic algorithm.It is one of the search algorithms used to solve optimization.
文献阅读
1、题目和摘要
题目:基于多通道LSTM的不平衡情绪分类方法
摘要:情绪分类是自然语言处理问题中的重要研究问题之一 。 情绪分类旨在对文本包含的情绪进行自动分类 ,该任务是情感分析的一项基本任务 。 然而,已有的研究都假设各情绪类别的样本数量平衡 ,这与实际情况并不相符合 。该文的研究主要面向不平衡数据的情绪分类任务 。 具体而言 ,该文提出了一种基于多通道LSTM神经网络的方法来解决不平衡情绪分类问题 。 首先 ,该方法使用欠采样方法获取多组平衡训练语料 ;其次 ,使用每一组训练语料学习一个LSTM模型 ;最后 ,通过融合多个LSTM模型 ,获得最终分类结果 。 实验结果表明该方法明显优于传统的不平衡分类方法 。
2、存在问题
虽然文本情绪分类的研究已经开展多年 ,但是目前大部分的研究都假设各种情绪类别的样本分布平衡 ,即各情绪类别的样本个数相同 。 然而 ,现实情况往往并非如此 。 在实际收集到的语料中 ,不管是产品的评论文本还是微博文本 ,各个情绪类别样本的分布往往会非常不平衡 。 样本分布的不平衡会使得应用传统的机器学习分类方法得到的分类结果严重偏向多样本类别(样本数目多的类别) ,从而大大地降低分类性能。
不平衡分类问题在自然语言处理领域是一个经典的研究问题 。 目前主流的不平衡分类方法是基于欠采样的机器学习分类方法 。 该方法的主要思想是使用欠采样技术得到平衡的样本 ,再通过机器学习的分类方法来对样本进行分类 。 由于欠采样方法使得多类样本只有部分参与训练 ,从而丢失了很多可能对分类有帮助的样本 。
已有的情绪分析研究基本都是基于样本分布平衡的假设 ,不平衡数据的情绪分析方法研究还很缺乏。
3、数据情况
主要来源:NLP&CC-2013 中文微博情绪分析评测提供的微博语料
划分为7个情绪:高兴 、喜好 、愤怒 、悲伤 、恐惧 、厌恶和惊讶。在数据中,喜好占最多,是最小恐惧的15倍左右。
针对不平衡情绪分类 ,我们首先使用随机欠采样方法得到各情绪类别平衡的样本 ,然后采用单通道 LSTM 神经网络作为分类方法 。第一个虚线框部分为单通道 LSTM模型内部结构 ,第二个虚线框部分为不平衡样本的处理过程
Dropout 层在训练和预测时随机让网络中某些隐含层节点不工作 ,减少了特征个数 ,有效地防止了网络过拟合 。Dropout 层作为 LSTM 神经网络模型中的隐藏层出现 :
单通道 LSTM 模型的输出通过 Softmax输出层来对样本进行分类 。 我们选择后验概率最大的类别作为预测标签:
4、基于多通道 LSTM 的不平衡情绪分类方法
该方法在不平衡样本中多次欠采样得到多组平衡样本 ,使用每一组平衡样本学习一个LSTM模型 ,通过Merge层对多个LSTM模型进行联合学习 ,得到最终的分类结果 。
Merge层将上面n组LSTM模型的输出特征进行融合 ,并通过反向传播算法来对网络参数进行更新 。 Dropout 层接收 Merge 层的输出作为输入 ,该层的功能与其在单通道LSTM神经网络中的功能相同 。 网络的最后一层是 Softmax输出层 ,该层用来输出网络模型的预测标签 labelpred 。 在模型训练的过程中 ,我们选择最小化交叉熵误差作为损失函数 ,即 :
5、实验结果
比较完全训练 、随机过采样和随机欠采样方法在基于不平衡数据的情绪分类中的分类效果 。 我们可以看出随机欠采样的分类性能明显优于前两者 ,其优势在 G-mean 值上表现得尤为突出 。该现象的主要原因是在完全训练和随机过采样方法中 ,分类算法严重趋向样本数量较多的类别 ,使得样本数量较少的类别的召回率非常低 。
接下来比较最大熵和 LSTM 神经网络在随机欠采样方法下的情绪分类性能 。
单通道 LSTM 神经网络的分类性能要优于最大熵的分类性能 ,在 Accuracy 和 G-mean 上分别提高了1.8% 和1.2%。LSTM神经网络能够充分利用历史信息 ,可以学习到样本之间的长期依赖关系 。LSTM 神经网络和 CNN 神经网络的分类性能相当 ,在 Accuracy 上 LSTM 神经网络稍占优势 ,在G-mean 上 CNN 略高一点。
在不平衡分类问题中 ,为了充分利用所有标注样本 ,但又保持训练样本之间的平衡 ,基于欠采样的集成学习的方法表现得较为理想 。 接下来将比较基于欠采样的集成学习的分类方法和文章提出的基于多通道 LSTM 神经网络的分类方法 。
当隐层特征使用相加融合时 ,基于多通道LSTM神经网络的分类方法比集成学习方法在Accuracy方面提高了1.5% ,在Gmean方面提高了2.8% ;当隐层特征使用拼接融合时 ,基于多通道LSTM 神经网络的分类方法比集成学习方法在Accuracy方面提高了1.0% ,在G-mean方面提高了2.1% 。
结论:基于多通道 LSTM 神经网络的分类方法对不平衡情绪分类非常有效 。 该方法不仅可以在各类别样本分布不平衡时充分利用已有样本的信息 ,而且可以考虑文本上下文之间的关系 。
深度学习
1、遗传算法
遗传算法是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。
遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解(称为个体)可抽象表示为染色体,使向更好的解进化。传统上,解用二进制表示(即0和1的串),但也可以用其他表示方法。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中评价整个种群的适应度,从当前种群中随机地选择多个个体(基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群在算法的下一次迭代中成为当前种群。
特点:
1.首先组成—组候选解
2.依据某些适应性条件测算这些候选解的适应度
3.根据适应度保留某些候选解,放弃其他候选解
4.对保留的候选解进行某些操作,生成新的候选解。
优点:
1.与问题领域无关切快速随机的搜索能力。
2搜索从群体出发,具有潜在的并行性,可以进行多个个体的同时比较,robust.
3.搜索使用评价函数启发,过程简单
4.使用概率机制进行迭代,具有随机性。5.具有可扩展性,容易与其他算法结合。
缺点:
1.收敛速度慢
2.局部搜索能力差
3.控制变量多
4.无缺点的终止准则
3.遗传算法常见的编码方式
2、运算过程
(1))初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(O)。
(2)个体评价:计算群体Pt中各个个体的适应度。
(3)选择运算:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下—代。选择操作是建立在群体中个体的适应度评估基础上的。
(4))交叉运算:将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。
(5)变异运算:将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下—代群体P(t+1)。
(6)终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,终止计算。
总结
本周对LSTM和遗传算法进行了学习,再次回顾了LSTM的应用和一些原理,由于本周有几门考试,时间较为紧张则没有加深学习,以及未对遗传算法进行编码学习,计划下周补上对遗传算法编码的学习。