这篇文章的启发主要是aspect和sentiment之间的联系可以设置一些规则实现。
Abstract
大量开放的在线课程 (MOOCs) 正在重新定义教育系统, 超越传统课程所构成的界限。随着在线课程的普及程度的提高, 理解和解释课程参与者的沟通需要相应的增加。在在线课程论坛帖子中确定谈话的主题或内容并推断情绪, 可以使教师干预能够满足学生的需要, 迅速解决与课程相关的问题, 并提高学生的保留能力。标记的aspect-MOOCs 的情绪数据是昂贵的获取和可能无法在课程之间转移, 表明需要不需要标签的数据的方法 。我们在在线课程中建立了一个弱监督的 aspect-sentiment 连接模型, 用最近开发的可伸缩类的统计关系模型 (称为铰链损耗马尔科夫随机场) 建模了各个方面和情绪之间的依赖性。我们在十二个在线课程的样本上验证我们的模型, 每一个都包含1万个帖子, 并证明与情绪共同建模方面提高了预测的准确性, 为方面和情绪。
Introduction
由于以下几个原因, 自动识别这些报告的问题很重要:
- 在 MOOCs 中, 由于教师和学生 比例偏高, 教师手动筛选所有帖子是很耗时的,
- 迅速解决问题, 可以帮助提高学生的留存率,
- 今后的课程迭代可以从确定学生目前面临的技术和后勤问题中获益。本文研究了确定帖子的细粒度主题的问题 (我们称之为 "MOOC"的aspect) 和对他们的看法, 这可能会被用来改进课程。
目前的困境:
- 可能只有5-10%的帖子和aspect有关
- 标签标注花费太大,并且数据被私有化难以获取
我们设计了一个弱监督系统来决定帖子的aspect和sentiment。我们的系统能通过微小的修改或者不用修改,就能适用于所有MOOC论坛。贡献主要为以下几点:
- 我们展示了怎么在有种子词的情况下编码弱监督,用SeededLDA -一个变化的种子主题模型(Jagarlamudi et al., 2012 )来抽取MOOC中特殊课程的特征。
- 在SeededLDA 的基础上,我们提出了aspect和sentiment 的共同模型,使用hinge-loss Markov random field (HL-MRF) 概率建模框架。这个框架十分适合这个问题,因为他能从多个特征和aspect 和sentiment 的共同推论中组合信息
- 为了证实我们的系统的有效性,我们通过抽取12个MOOC课程的帖