集成学习(上)——sklearn构建分类项目(1)

本文通过sklearn构建分类项目,涉及逻辑回归和基于贝叶斯公式的线性判别分析。介绍了分类指标的选择,如真阳性、真阴性等,并探讨了逻辑回归的极大似然估计和贝叶斯公式的线性判别分析方法。
摘要由CSDN通过智能技术生成

Datawhale 集成学习(上)—— sklearn构建分类项目(1)


前言

主要是通过sklearn进行分类项目的构建,本节主要内容是逻辑回归和基于贝叶斯公式的线性判别分析


一、使用sklearn中的数据集构建分类项目:

代码如下:

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X,columns=feature)
data['target'] = y
data.head()

在这里插入图片描述

二、选择度量模型性能的指标

度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的,前者会使得患者无法得到及时的救治而耽搁了最佳治疗时间甚至付出生命的代价,而后者只需要在后续的治疗过程中继续取证就好了,因此我们很不希望出现前者,当我们发生了前者这样的错误的时候会认为建立的模型是很差的。为了解决这些问题,我们必须将各种情况分开讨论,然后给出评价指标。

真阳性TP:预测值和真实值都为正例;
真阴性TN:预测值与真实值都为正例;
假阳性FP:预测值为正,实际值为负;
假阴性FN:预测值为负,实际值为正;
在这里插入图片描述
分类指标在语义分割中已经有过介绍。

三、logistic regression

主要是基于问题种类的不同,由于回归问题和分类问题的目标不同,回归问题中因变量是连续的,而分类问题中因变量是离散的。所有我们
(1)需要将线性回归转换成逻辑回归:
z ( x ) = − w T x z(x) = - {w^T}x z(x)=wTx通过sigmoid函数将线性回归转换成逻辑回归:
p 1 = p ( y = 1 ∣ x ) = 1 1 + e − w T x p_1=p(y = 1|x) = \frac{1}{ {1 + {e^{ - {w^T}x}}}} p1=p(y=1x)=1+ewTx1
这样用过sigmoid函数转换之后得到的就是一个概率值,这样的一个概率值表示为:
p ( y = 1 ∣ x ) = p 1 y ( 1 − p 1 ) 1 − y p(y = 1|x) = p_1^y{(1 - {p_1})^{1 - y}} p(y=1x)=p1y(1p1)1y
也就是当 y=1时 p ( y ∣ x ) = p 1 p(y|x)=p_1 p(yx)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值