半监督情感分类的主动深度学习方法（Neurocomputing2013）

最新推荐文章于 2024-07-02 15:51:11 发布

gsp_2015

最新推荐文章于 2024-07-02 15:51:11 发布

阅读量3.6k

点赞数 1

分类专栏：论文阅读之倾向性分析文章标签： ADN IADN 损失函数梯度下降

本文链接：https://blog.csdn.net/ABCD2010014357/article/details/48969473

版权

本文介绍了一种主动深度学习方法（ADN）用于半监督情感分类，结合了深度信任网络的抽象能力和反向传播策略的分类能力。ADN利用标记和非标记评论，通过梯度下降微调指数损失函数。此外，还提出了信息ADN（IADN），利用信息密度选择需手动标记的评论，以增强分类效果。实验显示，即使在少量标记数据下，ADN和IADN也能实现良好的情感分类性能。

摘要由CSDN通过智能技术生成

半监督情感分类的主动深度学习方法（Neurocomputing2013） Active deep learning method for semi-supervised sentiment classification

文章提出主动深度网络（ADN）的半监督学习框架。ADN用基于标记评论和充足非标记评论的非监督学习的限制玻尔兹曼机（RBM）建立。随后，构建的架构通过基于监督学习指数损失函数的梯度下降微调。在半监督学习框架中，采用主动学习识别用于训练ADN框架的评论。随后用选择的标记评论和所有非标记评论训练ADN框架。进一步地，ADN结合信息密度，提出信息ADN（IADN）方法，可以采用所有非标记评论的信息密度来选择需手动标记的评论。
文章的主要贡献：首先，文章引入了一个新的深度框架，集成深度信任网络的抽象能力和反向传播策略的分类能力。第二，文章提出两个高效的主动学习方法，集成主动学习的评论选择能力和深度框架的分类能力。标记评论选择器和分类器基于同样的框架，为半监督分类任务提供了统一的框架。第三，文章采用半监督学习和主动学习成功地进行情感分类，获得有竞争力的性能。
情感分类可以在词，句子或者文档上进行，通常划分为基于词典的和基于语料的分类方法。文章专注于基于语料的分类方法。当没有足够的训练数据时，可以采用跨领域方法，当没有足够的标记数据时，可以采用半监督学习方法。文章专注于半监督分类方法。

主动深度网络

问题形式化、半监督学习、主动学习和http://blog.csdn.net/abcd2010014357/article/details/48915027中的深度信任网络构建方法一样，一直到式子(24)，除去成员函数 $μ_A(x)$ 和 $μ_B(x)$ 部分。
根据参考文献，随机平衡方法，从池中随机取样等量的积极和消极实例，比常规随机方法性能更好。在ADN方法中引入这一“平衡”思想。没有事先标记整个池中的实例，选择等量的积极和消极实例是不可能的。提出一个简单的方法近似积极和消极评论的平衡。每一次迭代，首先，分别计算积极和消极标记评论的数量。第二，用之前迭代训练的深度框架划分池中未标记评论。第三，选择第二步标记的适当数量的积极和消极评论，添加它们到标记数据集，使得标记和未标记评论相等。第四，手动重标新添加的评论保证标记数据集中所有评论标记的准确性。

ADN步骤
每次迭代，ADN框架用所有未标记和标记评论用非监督和监督学习再训练，深度框架的参数用先前迭代的训练结果初始化。然后从未标记池中基于离分隔线的距离选择G个评论，手动标记这些评论，添加它们到标记数据集。下一次迭代，非监督学习用前一次迭代监督阶段训练得到的参数初始化。基于新的标记数据集再一次用监督学习。非监督和监督学习轮流进行，可以互相调整参数，提高深度框架的抽象和分类能力。最后，ADN框架用所有未标记和存在的标记评论再训练。
由于提出的ADN方法可以用同样的框架主动选择标记数据集和分类评论，避免了选择和训练过程不同框架的障碍。
训练包括两步：逐层贪心的非监督学习和梯度下降的监督学习，最小化损失函数。

信息ADN

ADN方法没有考虑评论候选的信息密度。存在离分隔线最近，但离两类中心点很远的点，由于离决策边界最近，在ADN方法中被选择，但它在分布中不是一个有代表性的样本。IADN方法将这种情况考虑在内。给定一个未标记池 $X^R$ ，下一个未标记实例根据位置 $h^N(X^R)$ 选择。 $h^N(X^R)$ 的信息通过它与分隔线同一边的其他样本的平均相似度加权，形式化为：