机器学习笔记——逻辑回归之二分类
一、什么是逻辑回归?
- 逻辑回归(Logistic Regression)。虽然逻辑回归叫回归但却是用来解决分类问题的,并且常用于二分类问题。逻辑回归的本质是:假设数据服从某个分布,然后使用极大似然估计做参数的估计。
- Logistic 分布是一种连续型的概率分布,其中, μ \mu μ表示位置参数, γ \gamma γ为形状参数。其分布函数和密度函数分别为:
- 我们接下来可能用到的和深度学习神经网络中常用的sigmoid函数就是Logistic函数的一个特例。logistic函数当 μ = 0 , γ = 1 \mu=0,\gamma=1 μ=0,γ=1时就变成了sigmoid函数。该函数中心点为0( μ = 0 \mu=0 μ=0),值域分布为(-1,1)( γ = 1 \gamma=1 γ=1)。
二、可否用线性回归解决二分类问题?
- 其实分类也需要通过模型预测得到一个变量值,然后再根据该变量与分界标准与比对实现分类。那么能否用简单的线性回归来实现二分类呢?
- 上图表示的含义是:根据肿瘤大小来分类肿瘤良性或者是恶性。分析上图,当我们的训练数据集只有左下方4个和中间4个时,我i们可以得到蓝色的线性回归直线,我们可以使用0.5当作分界值来分类良性与恶性。
- 但如果我们将右上方的点考虑进来,也就是极端情况(肿瘤很大且是恶性)。根据以上数据我们可能得到红色的回归直线,当然不能再使用0.5的分界线,假设使用0.7的分界线,那么我们部分恶性肿瘤就可能被判断为良性。
- 因此线性回归模型很容易收到极端数据的影响,不可以用简单的线性回归模型来解决二分类问题。
三、逻辑回归基本思路
1.sigmoid函数拟合分布
- 线性回归函数的值域为 ( − ∞ , + ∞ ) (-\infty,+\infty) (−∞,+∞),而二分类问题的值域为{0,1}。我们令 z = θ T x = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . . , z 属 于 ( − ∞ , + ∞ ) z=\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+....,z属于(-\infty,+\infty) z=θTx=θ0+θ1x1+