机器学习实验六 Logistic回归

一、Logitic回归介绍 

Logistic回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。逻辑回归根据给定的自变量数据集来估计事件的发生概率,由于结果是一个概率,因此因变量的范围在 0 和 1 之间。逻辑回归是一种线性分类算法,它通过对数几率函数将线性回归的输出映射到概率空间,从而实现分类。

1.主要应用场景包括:

用于分类:适合做很多分类算法的基础组件。

用于预测:预测事件发生的概率(输出。

用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值。

预测是否发生、发生的概率(流失、客户响应等预测。

影响因素、危险因素分析(找出影响结果的主要因素)。

2.我们需要使用Logistic回归的原因主要有两点:

寻找危险因素:例如找出与胃癌相关的危险因素。

用于预测:我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率。

               

二、Logistic回归的工作原理

Logistic回归是一种常用的分类算法,尤其适用于二分类问题。它的核心思想是通过对数几率函数(logistic function)将线性回归的输出映射到概率空间,从而实现分类。

Sigmoid函数是Logistic函数的一种特殊形式,通常用σ(x)或sig(x)来表示。Sigmoid函数是一条s形曲线,其公式如下:

\sigma (x)=\frac {1} {1+e^{-x}}

我们把一个样本扔进sigmoid中,就可以输出一个概率,也就是这个样本属于第一类或第二类的概率。Sigmoid函数也可以作为压缩函数,因为它的域是所有实数的集合,它的范围是 (0,1)。因此,如果函数的输入是一个非常大的负数或非常大的正数,则输出总是介于0和1之间。

最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单理解就是,给定已知事件(比如抛硬币的n次结果),那么在什么情况下该已知事件最有可能发生(抛硬币的正面的概率是多少,会出现已知事件)。最大似然估计的思想在于,对于给定的观测数据x,我们希望能从所有的参数θ1,θ2,…,θn中找出能最大概率生成观测数据的参数θ*作为估计结果。这个过程通常是通过求导等于0来解得。

三、示例

让我们来看一个关于学生录取的例子。假设你是一所大学的招生官,你想根据申请者的两项成绩(如:高中平均成绩和标准化考试成绩)来预测他们是否会被录取。

首先,你需要收集一些过去申请者的数据,包括他们的两项成绩和录取结果(是/否)。这些数据将作为你的训练集。

然后,你可以使用Logistic回归来训练一个模型。在这个模型中,成绩是自变量(或特征),录取结果是因变量(或标签)。模型的目标是找到一个最佳的决策边界,将被录取和未被录取的学生尽可能分开。

训练完成后,你就可以使用这个模型来预测新的申请者是否会被录取。你只需要输入他们的成绩,模型就会输出他们被录取的概率。

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 假设 X 是两项成绩,y 是录取结果
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建Logistic回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
predictions = model.predict(X_test)

 四、结论

Logistic回归是一种强大的统计工具,可以用于解决分类问题。尽管它看起来简单,但如果正确使用,它可以在许多实际问题中提供有价值的洞察。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值