一、分类问题
分类问题的样例:
· 判断一封电子邮件是否是垃圾邮件;
· 确定在线金融交易是否具有欺诈性;
· 将肿瘤分类为良性肿瘤和恶性肿瘤;
特点:可能的输出只有“y”和“n”两类——二元分类
positive class:true / 1
negative class:false / 0
线性回归模型在分类问题上的局限性:
线性回归模型无法很好地确定分类问题的边界,直线对两侧数据的拟合效果较差;当新增新的训练数据时,分界点会随之变动,直线也会上下偏移,导致最后的预测效果变差。
因此,一个更好地解决分类问题的算法模型便是——逻辑回归。
二、逻辑回归算法理论
1. 逻辑回归的输出结果
· 输入x的值,确定y是0或1;
· 输入x的值,预测y等于1的概率;
对于二元分类问题的逻辑回归而言,模型的取值只在0到1之间。
2. 逻辑回归算法的计算推理:
· 从线性回归模型导入逻辑回归算法:
于是有:
三、决策边界
对于输入x,逻辑回归算法将得到y=1的预测值。但如何将y判定为0或1?这就需要知道y预测值取0或1的阈值,即找到“决策边界”;
· 在决策边界左侧的输入,将其输出预测值对应为0;
· 在决策边界右侧的输入,将其输出预测值对应为1;
一般地,取 这条线为决策边界。
对于该预测模型,取 ,计算得参数的值,取
,得到决策边界。
四、逻辑回归的损失函数
1. 平方损失函数的不适用
· :训练数据量;
· :特征值;
由于逻辑回归函数的预测值只能取在[0, 1]的区间内,使得平方损失函数不再有效。
2. 使用log对逻辑回归函数进行损失估计
由于逻辑回归函数的预测值在[0, 1]上,因此将其取对数,可以预想的是当其函数值趋近于0或1的某一侧时,损失值可趋于无穷,因而可以将其明显地区分开来。
· 当数据的真实值为1时:
· 当数据的真实值为0时:
3. 简化损失函数
首先对log处理的逻辑回归损失函数进行简化,使其不必再采用分段函数的表达形式;
紧接着对于成本J(平均损失),利用上述简化的损失函数求m个样本的整个训练集的平均值来对整个模型的精确度进行拟合。
五、实现逻辑回归的梯度下降
利用梯度下降的计算公式,对逻辑回归模型的损失函数计算得:
所得的结果发现,逻辑回归模型的梯度下降算法与线性回归模型的梯度下降算法近似。
因此,依旧可以采用相同的方式对 不断赋值,直到梯度下降收敛,从而找到最合适的
的值。同样的特征缩放、矢量化等方法也依旧适用。