目录
4 逻辑回归
4.0 概述
不同于线性回归,逻辑回归是对样本进行分类。
比如分类邮件是不是垃圾邮件;肿瘤是良性的还是恶性的....
比如我们判断以肿瘤大小与是否是恶性肿瘤?我们得确定一个相对阈值,比如超过0.6就是恶性肿瘤,这个阈值是怎么选择出来的,这些都是我们接下来要讨论的!
4.1 逻辑回归模型
4.1.1 假设函数
我们想要假设函数取值在0-1之间,因为我们要设定一个阈值(0-1),超过这个阈值就认为是什么分类(正分类或负分类)。
假设函数如下:
这里,
是指特征向量。图像如下,
这里
理解为在输入为x的情况下输出为1的概率。
这个例子就是告诉患者肿瘤恶性的可能性为70%,可以用
概率表示,即给定输入
和
,预测肿瘤是为恶性的概率。
4.1.2 决策边界
在具有两个类的统计分类问题中,决策边界或决策表面是超曲面,其将基础向量空间划分为两个集合,一个集合。 分类器将决策边界一侧的所有点分类为属于一个类,而将另一侧的所有点分类为属于另一个类。
那么怎么确定这个决策边界呢?
即可,我们举例子看一下:
我们认为⚪代表是负样本,×代表的是正样本,
,我们的决策边界就是
,即如果
,我们认为
,即为正样本。
对非线性决策边界也使用:如下图
4.2 代价函数
4.2.1 代价函数及其理解
线性回归的代价函数不适用于逻辑回归。在这里我们选用如下代价函数:
我们理解下如上代价函数:
![]()
假设函数 ![]()
y=1时的代价函数 当
且
时代价函数
为0;也就是说,样本预测是正样品且真是是正样品时代价函数值接近为0,但是如果
且
时代价函数
就趋于无穷大!
时的分析和上述相似,这里不再推导。
4.2.2 简化代价函数
这里我们还是要寻找一个最优的
,使得此
满足
,用这个
构造的
对输入的
得出一个0-1的值,再选择一个阈值去判断这是正样本还是负样本达到分类的目的。
4.2.3 梯度下降法
这里仍然是对代价函数求偏导逐步得到最终结果的:
重复执行下列过程:
直至代价函数变化小于某一阈值我们认为其收敛。
4.3 多元分类
我们之前根据肿瘤大小将肿瘤分类成良性和恶性,但是这并不满足临床要求。临床中可以把肿瘤分为Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期.......
我们处理多元分类的思想就是两个两个一组进行分类,为每个对象训练逻辑回归分类器
用于预测
的可能性概率,在新输入
上,要进行预测,请选择最大化的类
。即
。