半监督情感分类的模糊深度信任网络(Neurocomputing2014) Fuzzy deep belief networks for semi-supervised sentiment classification
文章首先通过训练集上的半监督学习训练通常的深度信任网络(DBN)。然后基于学习的深度框架,为每类评论设计一个模糊成员函数。其次,基于模糊成员函数和第一步获得的DBN,建立新的FDBN框架,采用监督学习提高FDBN分类的性能。FDBN不仅继承了DBN的强大抽象能力,而且展示了处理情感数据的诱人的模糊分类能力。为了继承主动学习和FDBN的优点,提出一个主动FDBN(AFD)半监督学习方法。
概念是继承或者获得的。继承的概念不可变,获得的概念通过进一步的经历和内部思想更新。使用模糊集模拟继承的概念,使用DBN模拟学习的概念。文章提出的FDBN的一些好的属性如下:
- FDBN通过引入模糊集理论,获得嵌入类先验知识于深度框架的能力。利用一个新的深度框架集成限制玻尔兹曼机(RBM)的抽象能力和模糊集的分类能力。RBM可以快速降维,模糊集可以基于每个类的成员函数提高深度框架的分类精度。
- FDBN通过逐层贪心的非监督学习构建,参数空间通过梯度下降监督学习微调。特征提取和分类步骤使用相同的深度框架,在充足的非标记数据的帮助下提高了概括能力。FDBN可以通过反向传播策略使用一个指数损失函数直接优化构建的深度框架。
- FDBN可以用主动学习模式调整。结合主动学习和FDBN方法,提出主动FDBN(AFD)方法,可以选择最不确定的评论来标记,用很少的标记数据获得更好的性能。FDBN和AFD在未标记数据的帮助下,用少量监督数据可以获得很好的分类结果。
文档的情感分类方法通常划分为基于词典的(词项计数)和基于语料的(机器学习)。基于语料的方法通常获得更好的性能。监督情感分类是领域相关的,标记每个域的大规模语料是昂贵的。由于情感上模棱两可的评论,非监督情感学习是困难的。因此这篇文章关注于情感分类的半监督学习。
模糊深度信任网络
虽然DBN可以一层一层地抽象数据,基于反向传播训练分类。由于二义性信息的存在,它仍然不能准确地划分评论。因此,不尝试直接划分所有的评论,采用模糊集进行情感分类,提出模糊深度信任网络(FDBN)方法,用半监督学习解决情感分类问题。
- 模糊深度信任网络构建
根据参考文献的预处理方法进行预处理。联合数据集中所有长度大于1的词。然后通过文档频度排序,移除前1.5%,因为许多这些高文档频度的词是停用词或者特定领域通用词。预处理后,采用一元特征,每个评论用带二值权重 xi 的向量代表,如果词汇中的第j个词在第i个评论中, xij=1 ,否则 xij=0 。然后数据集表示为一个矩阵: X=[x1,x2,...,xR+T] (1) , x=[x1,x2,...,xD] (2) ,R是训练评论的数量,T是测试评论的数量,D是数据集中的特征词数。L个标记评论随机从R个训练评论中选,或者通过主动学习主动选取, XL=XR(S), S=[s1,...,sL],1≤si≤R (3) ,S是选择的要手动标记的训练评论的索引。令Y为对应L个标记训练评论的标签 YL=[y1,y2,...,yL] (4) , y=[y1,y2,...,yC]′ (5) ,如果x在第j个类中, yj=1 ,否则 yj=−1 ,C是类别数。例如,如果一个评论 xi 是积极的, yi=[1,−1] ,否则 yi=[−1,1] 。
想要使用L个标记评论和所有未标记评论,寻找一个映射函数 XL→YL ,这样对于一个新输入评论x,能确定y。为了解决这个问题,设计了一个使用深度技术的半监督学习算法FDBN。FDBN的深度框架为一个带有一个输入层 h0 ,N个隐藏层 h1,h2,...,hN 的全连接的有向信任网络,顶层是一个标记层。输入层 h0 有D个单元,等于样本评论x的特征数,标记层有C个单元,等于标记向量y的类数。隐藏层的单元数,根据经验或直觉预定义。隐藏层 hN−1 被成员函数 μA(x) 和 μB(x) 的值激活,分别代表x在积极类和消极类的成员值,可以被用于训练FDBN框架。寻找映射函数 X→Y ,转化为找深度框架的参数空间 W=w1,w2,...,wN 。FDBN的训练被分为两步:基于训练DBN框架的映射结果评估参数