sklearn笔记整理——(五)逻辑回归(Logistic Regression)

逻辑回归官网说明:
https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
逻辑回归(对数几率回归)也在线性回归部分。

算法原理

逻辑回归主要被应用在金融领域,其数学目的是求解能够让模型对数据拟合程度最高的参数θ的值(让损失函数最小的参数θ取值,损失函数使用极大似然函数推导),以此构建预测函数y(x),然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。返回的y有着概率的性质,可以被当做概率来使用。

优势与劣势

逻辑回归是由线性回归变化而来的,有以下显而易见的优点:
1、逻辑回归对线性关系的拟合效果很好。特征与标签之间的线性关系极强的数据有很好的拟合效果。
2、逻辑回归计算快。对于线性数据,逻辑回归的拟合和计算都非常快,计算效率优于SVM和随机森林。
3、逻辑回归可以返回类概率的数字。对于诸如信用卡评分这样的场景来说,逻辑回归得出的对数几率可以用来计算信用分。
4、不需要对数据做预处理(如像线性回归那样,标签必须满足正态分布,消除特征间的多重共线性等)

劣势:
逻辑回归在非线性数据的效果不理想,如果知道数据间的联系是非线性的,不要迷信逻辑回归。

评价标准

准确率(accuracy)

参数与接口

重要参数:
penalty:l1或l2,指定使用哪一种正则化方式,默认l2。l1正则化会将参数压缩为0,l2正则化只会让参数尽量小,不会取到0.

C:正则化强度的倒数。C越小,对于损失函数的惩罚越重,正则化效力越强,参数会被压缩得越来越小。

max_iter:最大迭代次数,来代替梯度下降计算中的步长,帮助我们控制模型迭代的速度并适时让模型停下来。max_iter越大,代表步长越小,模型迭代时间越长。

solver:求解参数的不同求解方法:
坐标下降法:liblinear
拟牛顿法:lbfgs
牛顿法的一种:newton-cg
随机平均梯度下降:sag
随机平均梯度下降的进化:saga(稀疏多项逻辑回归首选)

multiclass:预测标签的类型
ovr:二分类,或者让模型使用一对多的形式来处理多分类问题。
multinomial:处理多分类问题
auto:会根据数据的分类情况和其他参数来确定模型要处理的分类问题的类型。

对于求解器与回归类型,可以参考如下表格:
在这里插入图片描述

案例代码

用两种不同的分类类型拟合鸢尾花数据集:

from sklearn.linear_model import LogisticRegression as LR
from sklearn.model_selection import train_test_split as tts
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd

isis = load_iris()
isis.target

Xtrain,Xtest,Ytrain,Ytest = tts(isis.data,isis.target,test_size=0.3)
for multi_class in ('multinomial','ovr'):
    clf = LR(solver='sag',max_iter=100,random_state=0,multi_class=multi_class).fit(Xtest,Ytest)
    print(clf.score(Xtest,Ytest))

拟合结果:
在这里插入图片描述
从结果来看,multinomial用在鸢尾花数据集上效果较好。(其实该数据集本身就是多分类问题)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值