斯坦福大学公开课 :机器学习课程(Andrew Ng)——2、监督学习:Regression and Classification

0)回归和分类本来是一个事情,区别是:目标是连续值的称为回归,目标是离散值的称为分类。
1)线性回归(Linear Regression)——拟合连续数据
2)加权线性回归(Weighted Linear Regression)——lazy,similar to KNN
3)logistic回归——拟合0/1二值分类问题

4)误差函数(error function)

5)最小化误差函数J(θ)的方法1——(批量/增量<随机>)梯度下降法(Gradient Descent)

6)最小化误差函数J(θ)的方法2——最小二乘法(min square),矩阵计算(Normal Equation)

7)一般线性模型

8)Softmax回归(Softmax Regression,classification problems where y = {1,2,...,k})




0)回归和分类本来是一个事情,区别是:目标是连续值的称为回归,目标是离散值的称为分类。
1)线性回归(Linear Regression)——拟合连续数据

  clip_image004 令X0 = 1,则     clip_image005 

2)加权线性回归(Weighted Linear Regression)——lazy,similar to KNN

clip_image018 

  通常选择如下:

clip_image021
3)logistic回归——拟合0/1二值分类问题

clip_image026


二值分类问题首先想到满足伯努利分布(当然假设它满足泊松分布、指数分布等等也可以,只是比较复杂,后面会提到线性回归的一般形式):

clip_image027

所以:p(y|x;θ) = hθ(x)^y * (1-hθ(x))^y。即

clip_image041

4)误差函数(error function)

     clip_image006

5)最小化误差函数J(θ)的方法1——(批量/增量<随机>)梯度下降法(Gradient Descent)

     1)首先对θ赋值,这个值可以是随机的,也可以让θ是一个全零的向量。

     2)改变θ的值,使得J(θ)按梯度下降的方向进行减少。

     梯度方向由J(θ)对θ的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向。结果为

     clip_image007    

6)最小化误差函数J(θ)的方法2——最小二乘法(min square),矩阵计算(Normal Equation)

      θ可以由下面公式(称为正规方程)直接计算

clip_image008

     但此方法要求X是列满秩的,而且求矩阵的逆比较慢。

7)一般线性模型

     如果一个概率分布可以表示成     clip_image040 时,那么这个概率分布可以称作是指数分布。 

     伯努利分布,高斯分布,泊松分布,贝塔分布,狄特里特分布都属于指数分布,因为他们经过变形都能找到对应的a、b、T。

     一般线性模型的要点:

     1) clip_image046 满足一个以clip_image048为参数的指数分布,那么可以求得clip_image048[1]的表达式。

     2) 给定x,我们的目标是要确定clip_image050,大多数情况下clip_image052,那么我们实际上要确定的是clip_image054,而clip_image056。(在logistic回归中期望值是clip_image058,因此h是clip_image058[1];在线性回归中期望值是clip_image060,而高斯分布中clip_image062,因此线性回归中h=clip_image064)。

     3) clip_image066

8)Softmax回归(Softmax Regression,classification problems where y = {1,2,...,k})

      定义     clip_image067且满足clip_image068

      并且     clip_image069  ,即k-1维问题,而非k维问题。 

     为了将该问题表述成指数分布,引入T(y),它是一组k-1维的向量,这里的T(y)不是y,T(y)i表示T(y)的第i个分量。

     clip_image071

     由于y = {1,2,...,k},那么p(y)可以表示为

    clip_image072

       即:

     clip_image075

     由上式和clip_image068可解得:  clip_image076

     对于y=i,有:

     clip_image077(由一般线性模型clip_image066

     对应最大似然估为:

clip_image079

     对该公式可以使用梯度下降或者牛顿法迭代求解。


           另外,假设对应期望值

clip_image078





参考:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值