机器学习入门-分类问题的拟合

最新推荐文章于 2024-02-02 19:39:21 发布

永远鲜红の幼月

最新推荐文章于 2024-02-02 19:39:21 发布

阅读量482

点赞数

分类专栏：机器学习入门科普文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/qq_40482358/article/details/117462469

版权

机器学习入门科普专栏收录该内容

11 篇文章 0 订阅

订阅专栏

分类问题-逻辑回归

其实对于分类问题的本质还是选择合适的函数h(x)，通过改变函数的系数Θ使其代价cost(i)之和J(Θ)最小.

得出合适的hθ(x)函数。

逻辑回归

分类问题不一定都是线性可分的，还有很多是非线性分类的。

回归函数选择

对于01分类问题，由于正常的线性回归方程的局限性，采用非线性模型
$模型函数：h_{\theta}(x)=g(\theta ^T x)\\ \theta^T x可以表示为多项式如：\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2x_2+...\\ 其中g(z)=\frac{1}{1+e^{-z}}\\ 所以h_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}$

代价函数选择

线性回归模型代价函数：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2\\ 使用Cost(h_\theta(x),y)=\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2\\$
这里的代价函数表示的是我们希望学习算法付出的代价

直接使用欧氏距离代价函数，会有两个问题。

误差不合适的问题。
非凸函数出现的多个局部最优点。

所以我们要使用交叉熵损失函数来优化。

合适的代价函数如下所示，可以使得代价函数为θ的凸函数，便于使用梯度下降算法
$Cost(h_\theta(x),y)=-log(h_\theta(x))\ \ \ if\ y=1\\ Cost(h_\theta(x),y)=-log(1-h_\theta(x))\ \ \ if\ y=0\\ 因此其误差函数J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x),y)$
其中，y只属于0或1.

这里使用了交叉熵损失函数来代替欧式距离函数。

具体区别和解析见博客：为什么不用平方误差（MSE）作为Logistic回归的损失函数

简化代价函数

因为分段函数，所以我们将其按y和（1-y）来组合即可将整个函数放在一个式子中。

使用极大似然估计法求得
$J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x),y)\\ =-\frac{1}{m}[\sum_{i=1}^m(y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]\\ 使得Cost(h_\theta(x),y)=y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))$

求最小化J(θ)的θ组合-梯度下降

$根据梯度下降算法,更新每一项\theta，使其延代价函数对\theta的切线方向（偏导数）下降\\ \theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)\\ 其中J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x),y)\\ \theta_j:=\theta_j-\alpha\frac{\partial (\frac{1}{m}[\sum_{i=1}^my^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))])}{\partial\theta_j}\\$

比较之前的欧式代价函数梯度下降：
$由于J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\\ \theta_j:=\theta_j-\alpha\frac{\partial(\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2)}{\partial\theta_j}\\ 手动求导后得到具体的表达式：\\ \theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}$

之后执行梯度下降算法即可求出要求的θ

优化库函数实现

（这里用的octave语言。）

首先给出求导函数

这里使用下面公式表示代价函数
$j(\theta)=(\theta_1-5)^2+(\theta_2-5)^2$

function [jVal,gradient] = costFunction(theta)
  
  jVal = (theta(1)-5)^2+(theta(2)-5)^2;
  
  gradient=zeros(2,1);
  gradient(1)=2*(theta(1)-5);
  gradient(2)=2*(theta(2)-5);

其次调用函数

options = optimset('GradObj','on','MaxIter','100');  %%优化算法的记号
initialTheta=zeros(2,1);  %初始的梯度值
[optTheta,functionVal,exitFlag] = fminunc(@costFunction,initialTheta,options);

可以运行得出，最后的θ为[5,5]