第5章 Logisitic回归
本章将接触到最优化算法,并利用它们训练出一个非线性函数用于分类。
几个概念:
- 回归:假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线成为最佳拟合直线),这个拟合过程就称作回归。
- 利用Logisitic回归进行分类的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。
回归一词源于最佳拟合,表示要找到最佳拟合参数集。而训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。
5.1 基于Logistic回归和Sigmoid函数的分类
我们想要能够接受所有的输入然后预测出类别的函数,在两个类的情况下就是输出0或1。具有这种性质的函数称为海维赛德阶跃函数,或单位阶跃函数,不过该函数有时很难处理在从0瞬间跳跃到1的过程,所以我们引入了另一个具有类似性质的,即输出0或者1的函数——Sigmoid函数
σ(z)=11+e−z σ ( z ) = 1 1 + e − z
可以看出,当横坐标的刻度足够大时,Sigmoid函数就可以近似为一个阶跃函数。
实现Logistic回归分类器:
1. 在每个特征上乘以一个回归系数
2. 把所有结果值相加
3. 总和代入Sigmoid函数,得到一个范围在0~1之间的数值
4. 大于0.5的数据被分入1类,小于0.5被分入0类。
从上述实现过程我们也能看出Logistic回归也可以看成是一种概率估计。确定最佳回归系数也就成为了主要问题。
5.2 基于最优化方法的最佳回归系数确定
记Sigmoid函数的输入为z,
z=w0x0+w1x1