Jie Xu, et. al. 2017 AAAI.
周志华《机器学习》中对集成学习的介绍:
(1)集成学习通过构建并结合多个学习器来完成学习任务,分为“同质学习器”和“异质学习器”。“同质学习器”中只包含同种类型的个体学习器,而“异质学习器”的个体学习器由不同的学习算法生成。要取得好的集成效果,个体学习器应“好而不同”,即要求“准确性”和“多样性”。
(2)集成学习方法可分为两类,即个体学习器见存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系,可同时生成的并行化方法;前者的代表是Boosting,后者的代表是Bagging和“随机森林”。
基于学生的过往学习记录预测学生的未来表现是教育学的一个重要话题。例如,美国的学生贷款是一笔沉重的财政开销,并且学生就读时间越长,贷款数额越多。正确预测学生的表现对学生的学习作出干预可帮助学生正常毕业,从而减小财政开销。
由于学生数据的多样性和连续性,本文提出基于集成学习和教育领域背景的持续性预测模型。模型输入:学生的背景和当前的学术状态;模型输出:学生的毕业时间。
-
集成学习模型。本文基于EWAF算法,考虑学生的上下文信息和变化的过程,再根据学生的静态特征对学生进行分组,然后对分组的学生集成训练。如下图1所示,本文的集成学习模型加权基预测结果和上学期集成预测结果,输出当前的集成预测结果。
图1: 集成学习架构 -
基于教育领域背景的特征选择。本文尝试用特征向量去表示学生的学术状态信息(包括课程信息和学分信息),其中课程数目较多,如果用两个维度表示一个课程,表示的向量总维度会很大,因此根据课程的种类对课程进行合并,如下图2所示。并且使用LASSO选出最重要的特征。
图2:课程合并示例
最后给出本文算法的伪代码。