机器学习—逻辑回归和决策树

本篇文章记录一下在机器学习中的各个模型的优缺点:

Logistic Regression

逻辑回归作为机器学习中的“baseline”在实际当中经常被用到,Logistic Regression(LR)是一个二分类的分类器,其本质是在线性归回的基础上添加一个sigmoid激活函数,其输出值可以认为是判别当前样本属于正例的概率值。在LR分类器中,参数θ是我们需要确定的唯一参数,因此,可以通过样本来估计每个类别的概率,并使用极大似然估计的方法对参数进行似然估计,从而确定LR模型的参数。

LR的优点:

  1. 模型简单,可以通过权重参数来观察每个特征的重要程度。
  2. 模型效果还算不错。
  3. 训练速度快。分类的时候,计算量仅仅和特征的数目相关。
  4. 资源占用小,尤其是内存,因为只需要存储各个维度的特征值。

LR的缺点:

  1. 准确率不是很高。
  2. 很难处理不平衡的数据。
  3. 处理非线性数据较麻烦。
  4. LR本身无法筛选特征,往往采用GBDT筛选特征,然后接LR。

为什么LR需要归一化?
答:LR使用梯度下降进行优化,归一化可以加快收敛速度,提高收敛精度。

决策树

树模型是机器学习中最常见的模型之一,在集成学习的bagging和boosting的出场率也是极高。树模型通过搜索最佳的判别特征和切分点来优化自身,在树模型中,对结果越重要的特征越应该靠近根节点。通常来说,树模型分为三类:ID3,C4.5和CART(classify and regression tree)。ID3通常被用于离散数据集,而C4.5用于连续的数据集,而CART既可以用于分类任务也可以用于回归任务。

ID3:ID3使用信息增益作为选择某一特征进行分裂的依据,信息增益越大的特征说明特征对于结果越重要,因此该特征应该越靠近根节点。

C4.5:为了解决ID3无法处理连续数据的问题,C4.5横空出世。与ID3不同的是,C4.5在选择特征时使用的并不是信息增益,而是信息增益率。因为特征的取值越多信息增益就越大,这往往会导致过拟合,因此C4.5采用信息增益率对上诉情况进行了惩罚,可以一定程度上抑制过拟合问题。C4.5需要对每个特征的每个切分点逐一计算信息增益率来找到最佳的特征和切分点。

CART:CART既可以用于分类又可以用于回归,而ID3和C4.5只能用于分类任务,此外,C4.5是由二叉树组成,而ID3和C4.5却不是。CART有时也被成为最小二乘回归树,因为CART的参数是由平方损失函数最小化所确定。在回归树中,其每次生长的树结点中所有样本的均值作为回归预测值。CART选用GINI系数作为特征选择和切分点划分的指标,GINI系数越小,所选取的特征越靠近根节点。

剪枝策略:由于决策树在生长的过程中极其容易发生过拟合,因此需要对树进行剪枝。常见的剪枝策略有预剪枝和后剪枝,预剪枝是指决策树再生长的过程中进行剪枝,其缺点是可能导致分类效果严重下降并且欠拟合。通常一般采用的都是后剪枝策略,可以观察叶子结点剪枝前后的误差变化,如果误差降低了则剪枝,反之则不剪枝。

决策树优点:

  1. 算法简单,容易理解。
  2. 不用对数据进行归一化处理。
  3. 可用于小数据集。
  4. 时间复杂度较小。
  5. 可以处理多分类任务。
  6. 对缺失值不敏感。
  7. 是集成算法的基础。

决策树的缺点:

  1. 容易出现过拟合。
  2. 处理特征相关性较强的数据效果不是很好。
  3. 连续性字段难以预测。
  4. 类别太多时,错误可能增加得比较快。
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 在机器学习中,逻辑回归决策树的主要区别在于,逻辑回归是一种监督学习算法,用于解决二元分类问题,而决策树是一种用于分类和回归问题的非线性模型。逻辑回归根据给定的输入特征来预测一个离散的输出结果,而决策树则是根据一系列的决策来预测输出结果。 ### 回答2: 逻辑回归决策树机器学习中常用的分类算法,它们在原理和应用上有所不同。 逻辑回归是一种基于概率模型的分类算法。它通过建立一个逻辑回归方程,将特征与样本的分类关系建立起来。逻辑回归的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归假设特征与结果之间存在线性关系,并通过使用sigmoid函数将线性输出转化为概率。逻辑回归适用于两类或多类别的分类问题,其优点是简单、快速,并且能够估计类别之间的概率关系。 决策树是一种基于树状结构的分类算法。它通过将样本数据集划分为不同的子集,每个子集代表一个决策节点,最终形成一个树状结构。决策树的每个节点代表一个特征,根据该特征的取值将样本分配到不同的子节点上,直到叶子节点上获得最终的分类结果。决策树的输出是一个分类结果。决策树可以处理离散型和连续型特征,适用于多类别和二分类问题。决策树的优点是易于理解和解释,同时可以处理高维数据和缺失值。 总的来说,逻辑回归更适用于建立概率模型,可以估计类别之间的概率关系;决策树更适用于处理离散型和连续型特征,具有易于解释和处理高维数据的优势。在实际应用中,根据具体问题的特点和数据的性质选择适合的算法会有更好的效果。 ### 回答3: 逻辑回归决策树机器学习中常用的分类算法,它们有以下几个方面的区别。 1. 原理:逻辑回归是基于概率的分类方法,将线性模型与sigmoid函数结合,将输入特征与输出标签的概率联系起来。而决策树是基于树形结构的分类方法,根据特征的取值进行划分,通过一系列的决策路径最终确定样本的分类。 2. 表达能力:逻辑回归具有较强的线性回归能力,可以应对线性可分和非线性可分的数据集。决策树可以处理非线性可分的数据集,能够捕捉到特征之间的非线性关系。 3. 解释性:逻辑回归模型的系数可以用于解释特征对输出的影响,系数的符号可以表明特征的影响方向,但无法直接得到特征的重要性。决策树可以通过特征的重要性得到一种与人类决策相似的解释方式。 4. 鲁棒性:逻辑回归对异常值和噪声比较敏感,容易受到极端数据的影响,容易出现欠拟合或过拟合的问题。而决策树具有较高的鲁棒性,对异常值有一定的容忍度,能够处理包含噪声的数据。 5. 训练效率:逻辑回归的训练速度较快,特别是当特征的数量很大时,计算量相对较小。而决策树的训练速度较慢,特别是当数据集的规模和特征的维度较大时,计算量较大。 综上所述,逻辑回归决策树在原理、表达能力、解释性、鲁棒性和训练效率等方面存在差异。在实际应用中,需要根据具体问题的特点选择合适的算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI不错哟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值