本篇文章记录一下在机器学习中的各个模型的优缺点:
Logistic Regression
逻辑回归作为机器学习中的“baseline”在实际当中经常被用到,Logistic Regression(LR)是一个二分类的分类器,其本质是在线性归回的基础上添加一个sigmoid激活函数,其输出值可以认为是判别当前样本属于正例的概率值。在LR分类器中,参数θ是我们需要确定的唯一参数,因此,可以通过样本来估计每个类别的概率,并使用极大似然估计的方法对参数进行似然估计,从而确定LR模型的参数。
LR的优点:
- 模型简单,可以通过权重参数来观察每个特征的重要程度。
- 模型效果还算不错。
- 训练速度快。分类的时候,计算量仅仅和特征的数目相关。
- 资源占用小,尤其是内存,因为只需要存储各个维度的特征值。
LR的缺点:
- 准确率不是很高。
- 很难处理不平衡的数据。
- 处理非线性数据较麻烦。
- LR本身无法筛选特征,往往采用GBDT筛选特征,然后接LR。
为什么LR需要归一化?
答:LR使用梯度下降进行优化,归一化可以加快收敛速度,提高收敛精度。
决策树
树模型是机器学习中最常见的模型之一,在集成学习的bagging和boosting的出场率也是极高。树模型通过搜索最佳的判别特征和切分点来优化自身,在树模型中,对结果越重要的特征越应该靠近根节点。通常来说,树模型分为三类:ID3,C4.5和CART(classify and regression tree)。ID3通常被用于离散数据集,而C4.5用于连续的数据集,而CART既可以用于分类任务也可以用于回归任务。
ID3:ID3使用信息增益作为选择某一特征进行分裂的依据,信息增益越大的特征说明特征对于结果越重要,因此该特征应该越靠近根节点。
C4.5:为了解决ID3无法处理连续数据的问题,C4.5横空出世。与ID3不同的是,C4.5在选择特征时使用的并不是信息增益,而是信息增益率。因为特征的取值越多信息增益就越大,这往往会导致过拟合,因此C4.5采用信息增益率对上诉情况进行了惩罚,可以一定程度上抑制过拟合问题。C4.5需要对每个特征的每个切分点逐一计算信息增益率来找到最佳的特征和切分点。
CART:CART既可以用于分类又可以用于回归,而ID3和C4.5只能用于分类任务,此外,C4.5是由二叉树组成,而ID3和C4.5却不是。CART有时也被成为最小二乘回归树,因为CART的参数是由平方损失函数最小化所确定。在回归树中,其每次生长的树结点中所有样本的均值作为回归预测值。CART选用GINI系数作为特征选择和切分点划分的指标,GINI系数越小,所选取的特征越靠近根节点。
剪枝策略:由于决策树在生长的过程中极其容易发生过拟合,因此需要对树进行剪枝。常见的剪枝策略有预剪枝和后剪枝,预剪枝是指决策树再生长的过程中进行剪枝,其缺点是可能导致分类效果严重下降并且欠拟合。通常一般采用的都是后剪枝策略,可以观察叶子结点剪枝前后的误差变化,如果误差降低了则剪枝,反之则不剪枝。
决策树优点:
- 算法简单,容易理解。
- 不用对数据进行归一化处理。
- 可用于小数据集。
- 时间复杂度较小。
- 可以处理多分类任务。
- 对缺失值不敏感。
- 是集成算法的基础。
决策树的缺点:
- 容易出现过拟合。
- 处理特征相关性较强的数据效果不是很好。
- 连续性字段难以预测。
- 类别太多时,错误可能增加得比较快。