Logistic regression逻辑回归·二分类算法(分析基础)
综述
学生党整理一些关于数据分析的知识:逻辑回归二分类算法的介绍及如何使用python完成该回归方法。
原理介绍
逻辑回归
逻辑回归是经典的二分类算法,非常常用。在机器学习算法选择上,考虑先使用逻辑回归算法再采用其他复杂的算法,能用简单的就用简单的。逻辑回归的决策边界可以是非线性的。
Sigmoid函数(核心)
- 公式: g ( x ) = 1 1 + e − z g(x)=\frac{1}{1+e^{-z}} g(x)=1+e−z1
- 函数图像:
- 自变量为 ( − ∞ , + ∞ ) (-\infty,+\infty ) (−∞,+∞),值域为 ( 0 , 1 ) (0,1) (0,1)
- 函数意义:将任意的输入映射到 ( 0 , 1 ) (0,1) (0,1)区间。我们在线性回归中可以得到一个预测值,再将该值映射到Sigmoid函数中这样就完成了由值到概率的转换,就实现了分类目的。
决策边界
-
边界示意图
-
预测函数: h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+e−θTx1
其中 θ 0 + θ 1 x 1 + . . . + θ n x n = ∑ i = 0 n θ i x i = θ T x \theta_0+\theta_1x_1+...+\theta_nx_n= \sum^{n}_{i = 0}\theta_ix_i=\theta^Tx θ0+θ1x1+...+θnxn=i=0∑nθixi=θTx -
分类任务: P ( y = 1 ∣ x ; θ ) = h θ ( x ) P ( y = 0 ∣ x ; θ ) = 1 − h θ ( x ) P(y=1|x;\theta)=h_\theta(x)\\P(y=0|x;\theta)=1-h_\theta(x) P(y=1∣x;θ)=hθ(x)P(y=0∣x;θ)=1−hθ(x)
整合: P ( y = 1 ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y P(y=1|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y} P(y=1∣x;θ)=(hθ(x))y(1−hθ(x))1−y -
解释:对于二分类任务 ( 0 , 1 ) (0,1) (0,1),整合后 y