吴恩达机器学习视频
6.二分类问题,logistic回归算法,决策界限,代价函数,多分类问题
分类问题是预测结果是离散值的问题。二分类问题的数据集的结果只有两种0和1。logistic回归算法通过假设函数把二分类问题的预测结果控制在0和1之间。
logistic回归算法中的假设函数与假设函数的意义:
上图就是logistic算法,h(x)=g(θᵀx)。 这个θ是一个θi的向量。
h(x)的含义:输入x后得到的y=1的概率, 是一个条件概率,给出x的情况下,概率的参数是θ,y=1的概率。
logistic回归算法的预测方法:
如果假设函数h(x)≥0.5,也就是θᵀx≥0时,预测结果y=1。如果h(x)<0.5,也就是θᵀx<0时,预测结果y=0。(注:h(x)=0.5的情况可以自己选择归到哪一类)
决策界限:
决策界限以及y=0的区域和y=1的区域是假设函数的一个属性,并不是训练集的属性。当给出了参数θ的值,就能确定决策界限。上图的例子中x1+x2=3就是决策界限,分开了y=0和y=1的区域。
上图是又一个决策界限的例子,上面两个例子中参数θ的值都是给出过的。
代价函数:解决拟合参数θ的值的问题。
如果把线性回归问题中的代价函数用在分类问题上,会导致下图
因为logistic回归和线性回归中的h(x)不同,直接把线性回归的代价函数搬过来用在logistic回归上,代价函数会是如上左图,是一个非凸函数,有很多局部最小值,这种情况再使用梯度函数来确定θ的话,并不能保证求得的θ使J(θ)达到全局最小值。所以,不能直接照搬。
logistic的代价函数:
单训练样本:
由上,当y=1,h(x)=1,代价cost=0,当y=1,h(x)=0,代价cost趋向于∞,表示这种算法要为这种错误的预测付出很大的代价。
y=0时,同理。
延伸到多样本:
单样本的代价函数可直接写成最后一行蓝字的形式,多样本的代价函数J(θ)是上图第一行可写成下图的形式。
用梯度下降法求θ的值:
logistic回归问题的梯度下降法的形式和线性回归中的一样,但是h(x)不同。
特征缩放也可用于logistic回归问题。
除了使用梯度下降法,还用一些高级优化的方法来求θ。它们往往比梯度下降法更快速地收敛,而且不需要我们自己选学习率α但,它们要比梯度下降法更复杂。
多分类问题:
这类问题可把它分为多个二分类问题来解决。下图是一些多分类问题的例子。具体例子:
上图是一个三个类别的分类问题。针对三个类别,把这个问题分为右图三个二分类的问题,也就有三个分类器,蓝框中是三个分类器的假设函数及它的概率意义。
输入x,在三个分类器中运行x,选择三个分类器中h最大的分类器,针对该x预测的y就是这个hmax。
7.过度拟合与正则化(线性回归的正则化与logistic回归的正则化)
上图从左至右分别是线性回归的欠拟合,适当拟合和过度拟合,当有了过多的特征在假设函数中,每个训练集的点都在假设函数的线上,但会导致在训练集以外的情况,该假设函数很难泛化。
上图是logistic回归的欠拟合,适当拟合与过拟合。
出现过拟合的解决选择:
1.减少一些特征:①人工选择保留哪些特征,删去哪些特征;②一些自动选择算法来减少特征;
2.正则化:①保留所有特征,但减小参数θ的值;②当有很多特征时,也能确保适当拟合,每个特征都能对预测y产生一点影响。
对于一些问题,每个特征或多或少都是有用的,所以就需要正则化来帮助适当拟合。
正则化思想:
如上图,一个线性回归的问题, 如果把代价函数中加入蓝色字的两项,θ²的系数设为很大的数,使用代价函数计算θ时,要使代价函数的值尽可能的小,所以θ的值会尽可能地小。
对线性回归的梯度下降法的正则化:
对线性回归的正则化,代价函数如上图。
注意,一般情况下只对θ从1到n正则化,对θ0不正则化。ps:对θ0正则化可以,但一般情况下不用。
线性回归正则化后的梯度下降法:
注:θ0单独写出来。
倒数第二行经过整理可变成最后一行的式子,由最后一行可看出来,θj比正则化之前要小。
对线性回归的正规方程法的正则化:
注:n是特征数。
对logistic回归的正则化:
logistic回归正则化后的梯度下降法: