机器学习算法之逻辑回归(对数几率回归)- 做分类的
一、概述:
逻辑(logistic)回归, 又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域
1、几率
几率:一个时间发生的概率 / 不发生的概率
2、逻辑
逻辑:指的是logistic function
3、回归
回归:来源于线性回归的 Z = XW,使用线性回归去拟合逼近一个‘界’,使得按照这个界进行数据分类后得到的损失函数最小,以概率0.5为分界线,将数据分为正例和反例,使得Z> 0对应于‘正例’(趋近于概率为1),Z< 0对应于‘反例’(趋近于概率为0),使用回归的思想去解决分类问题
二、作用
总的来说,逻辑回归是用来预测离散值输出只有0和1的离散型输出,做二分类(1/0)任务,并给出相应的概率
三、模型
灵感过程
-
想要解决一个分类问题,从简单的二分类先开始
-
数据标签是(1/0)
-
可以使用最简单的单位阶跃函数
-
在解决问题的迭代优化是需要使用到微分和导数,但是阶跃函数不连续,因此使用link function代替,使其连续可导, 横坐标是Z, 纵坐标是y, 定义域是服务穷到正无穷,值域是0-1(可对应于概率值0-1),link function 对于逻辑回归来说,就是Sigmoid函数:
Sigmoid函数的性质
- Sigmoid函数是一个S型的函数,当自变量z趋近正无穷时,因变量g(z)趋近于1,而当z趋近负无穷时, g(z)趋近于0,它能够将任何实数映射到(0,1)区间,使其可用于将任意值函数转换为更适合二分类的函 数。
四、损失函数
逻辑回归的损失函数由极大似然估计法得出,过程可以写作:
负对数似然函数:
c o s t = − ∑ ( y ∗ l o g ( h ) − ( 1 − y ∗ ) l o g ( 1 − h ) ) cost = -\sum (y^{*}log(h) - (1-y^{*})log(1-h)) cost=−∑(y∗log(h)−(1−y∗)log(1−h))
J ( Θ ) = − ∑ [ y i ∗ l o g ( y θ ( x i ) ) − ( 1 − y i ∗ ) l o g ( 1 − y θ ( x i ) ] J(\Theta ) = -\sum [y_{i}^{*}log(y_{\theta }(x_{i}))- (1 - y_{i}^{*})log(1 -y_{\theta }(x_{i})] J(Θ)=−∑[y