逻辑回归补充

逻辑回归的优缺点

优点

1、它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题。

2、它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用。

3、对率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

缺点

对数据和场景的适应能力有局限性,不如决策树算法适应性那么强

多分类学习

 我们可以利用二分类来解决多分类问题。

拆分策略:

1.OvO(一对一)

给定N类样本,C_{1},C_{2}C_{2}⋯,C_{N}  训练样本两两组合形成二分类进行训练,从而产生\frac{N(N-1)}{2}个分类任务,最终结果可根据这些分类结果投票产生。

2OvR(一对其余)

训练时每次将一个类的样本作为正例,所有其他样本均为反例,来训练N个分类器,新样本通过分类器训练结果为正例时的就是最终结果。

3MvM(多对多)

MvM是每次将若干各类作为正例,剩下的若干个类作为反例,OvO和OvR其实是MvM的特殊情况。但是MvM的正反例构造必须有特殊的设计,不能随意选取。这里我们介绍一种最常用的MvM技术:“纠错输出码”(ECOC)。

类别不平衡问题

分类任务中不同类别的训练样例数差别很大。利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。面临不平衡数据集的时候,传统的机器学习模型的评价方法不能精确地衡量模型的性能。诸如决策树和 Logistic 回归这些标准的分类算法会偏向于数量多的类别。它们往往会仅预测占数据大多数的类别。在总量中占少数的类别的特征就会被视为噪声,并且通常会被忽略。因此,与多数类别相比,少数类别存在比较高的误判率。

处理不平衡数据方法

解决方法

1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。
2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。
3、不处理样本,样本分类阈值移动。

不平衡处理办法

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值