理论学习
本周主要是在之前已经了解了许多相关模型和算法的基础之下,进一步学习不同的模型对比与性能评估。
逻辑回归。其优点在于训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值。
决策树模型。其优点在于简单直观,生成的决策树可以可视化展示;数据不需要预处理,不需要归一化,不需要处理缺失数据;既可以处理离散值,也可以处理连续值。缺点在于决策树算法非常容易过拟合,导致泛化能力不强(可进行适当的剪枝),采用的是贪心算法,容易得到局部最优解。
集成模型集成方法(ensemble method)。通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好。集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。
实践学习
本周实践学习与上周相比进步不大,主要将重心放优化数据集的方向上,但是与之前相比并没有显著提高。
本周得到的成绩如图所示。