注:本文总结参考《Python机器学习基础教程》及老师课件,感谢作者!
算法一
逻辑回归
算法优点
(1)模型简单、易于理解、计算代价低
算法缺点
(1)容易欠拟合
关键参数
(1)penalty参数,取值“l1”和 “l2”,如果只是为了解决过拟合,采用L2正则化即可;如果进一步希望一些不重要特征的系数归于零,让模型系数稀疏化,则采用L1正则化。
(2)C参数,取值越大,正则化强度越小。
(3)class_weight参数,调和样本不均衡。
(4)multi_class参数,分类方式的选择,在多元分类问题中需要设置。本案例不涉及。
。。。。。。。。。。。。。。。。。。。
算法二
决策树
算法优点
(1)易于理解和解释
(2)能够同时处理数值型和分类型特征
(3)对数据规范性要求低,无需太多的数据预处理步骤
算法缺点
(1)但sklearn中决策树不支持对缺失值的处理
(2)容易过拟合
(3)决策树不稳定
(4)在拟合决策树时要考虑样本不均衡