Siwei Lai等,2015
背景:
使用CNN进行文本分类具有无偏的优点,先在每个小文本段上提取特征,再进入池化层汇总特征,从而区分句子或文本的语义。在提取特征时通常会设置一个固定长度的窗口,词窗长度的设置是一个问题:词窗小,可能会造成关键信息的损失;词窗大,参数空间会变得很大,难以训练。
本文用循环的思想改良CNN特征提取的过程,通过上下文的方式直接在word representation中保存信息,从而避免使用固定的词窗口,完成全监督文本分类任务。
Introduction——
特征提取feature representation是文本分类的重要问题,常用BoW模型(bigram, n-gram等形式被提取为特征)。
pretrained word embedding can capture meaningful syntactic and semantic regularities.
RNN能够利用上下文语义信息,但模型本身是有偏的,后出现的词汇会比先出现的词汇重要很多,而实际上重要的词汇在任何地方都可能出现。CNN是无偏的模型,从每一个小窗口中获取语义特征,再进入池化层汇总文本的特征。如果用固定窗口,词窗长度的选取就是一个问题。如上。
模型——
定义 cl(wi) c l ( w i ) 和