机器学习基础知识2

机器学习基础知识之逻辑回归打卡2

逻辑回归与线性回归

逻辑回归与线性回归定义

逻辑回归的定义

逻辑回归通常用来解决二分类问题(也可以解决多分类问题), 用于估计某种事物的可能性. 通过 Logistic 函数将拟合函数的输出值归一化到 (0, 1) 之间, 可以将其认为是分类为 1 类的预测概率. Logistic 函数公式(和 Sigmoid 函数形式形式相同)如下:Logistic 函数定义
Logistic(Sigmoid) 函数的求导公式有一个特性: g′(z)=g(z)(1−g(z)).

线性回归的定义

线性回归通常是解决连续数值预测问题, 来确定变量之间的相互依赖关系. 其公式通常表示如下:
y=θTx+e

逻辑回归与线性回归的联系和区别

线性回归主要解决连续量的预测,逻辑回归则是一个分类算法,主要有二分类等。
逻辑回归与线性回归

逻辑回归的原理、损失函数推导和优化以及正则化

可以参考逻辑回归原理小结

模型评估指标

参考博主 yang1young的内容

逻辑回归的优缺点

优点:不是硬性地将分类结果定为0或者1,而是给出了0和1之间的概率。计算代价不高,易于理解和实现,且若采用随机梯度上升法可以在线学习;
缺点:可能容易欠拟合,分类精度不高,这个可能是因为我们无法找到足够的特征。

样本不均衡问题解决办法

逻辑回归等分类方法的共同基本假设:不同类别的训练样例数目相当。

类别不平衡:分类任务中不同类别的训练样例数目差别很大。

存在的问题:会对学习过程造成困扰,比如样本大部分都是反例、正例很少,则训练的学习器没有价值,因为无法预测出任何正例。

解决方法:再缩放(rescaling),假设反例过多,正例很少

欠采样(undersampling):去除一些反例使得正、反例数目接近。不能随机丢弃反例,比如可以通过EasyEnsemble算法,利用集成学习机制将反例划分为若干个集合供不同学习器使用,这样看来对每个学习器都进行了欠采样,但是在全局看来却不会丢失重要信息。
过采样(oversampling):增加一些正例使得正、反例数目接近。不能简单对正例样本进行重复采样,可以通过SMOTE算法对训练集的正例进行插值来产生额外的正值
阈值移动(threshold-moving):直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,基于样本中正反例比例对预测值进行调整
(参考https://blog.csdn.net/weixin_42914573/article/details/88954123)

sklearn参数

依旧sklearn官方文档

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值