Andrew Ng机器学习课程笔记--week3

Andrew Ng机器学习课程笔记–week3(逻辑回归&正则化参数)

Andrew Ng机器学习课程笔记–汇总

Logistic Regression

一、内容概要

  • Classification and Representation

    • Classification
    • Hypothesis Representation
    • Decision Boundary
  • Logistic Regression Model

    • 损失函数(cost function)
    • 简化损失函数和梯度下降算法
    • Advanced Optimization(高级优化方法)
  • Solving the problem of Overfitting

    • 什么是过拟合?
    • 正则化损失函数(cost function)
    • 正则化线性回归(Regularized Linear Regression)
    • 正则化逻辑回归(Regularized Logistic Regression)

二、重点&难点

1. Classification and Representation

1) Hypothesis Representation

这里需要使用到sigmoid函数–g(z)

hθ(x)=g(θTx)

z=θTx

g(z)=11+ez

sigmoid函数

2) Decision Boundary

决策边界:

hθ(x)0.5y=1

hθ(x)<0.5y=0

等价于

g(z)0.5y=1

g(z)<0.5y=0

等价于

z0y=1

z<0y=0

2. Logistic Regression Model

1) 逻辑回归的损失函数

这里之所以再次提到损失函数,是因为线性回归中的损失函数会使得输出呈现起伏,造成许多局部最优值,也就是说线性回归中的cost function在运用到逻辑回归时,将可能不再是凸函数。

逻辑回归的cost function如下:

Jθ=1mCost(hθ(x(i),y(i)))

Cost(hθ(x),y))=log(hθ(x))ify=1

Cost(hθ(x),y))=log(1hθ(x))ify=0

结合图来理解:

  • y=1

y=1

由上图可知,y=1,hθ(x)是预测值,
- 当其值为1时,表示预测正确,损失函数为0;
- 当其值为0时,表示错的一塌糊涂,需要大大的惩罚,所以损失函数趋近于∞。

  • y=0

y=0
上图同理

2) Simplified Cost Function and Gradient Descent

  • 损失函数 cost function

Cost(hθ(x),y)=ylog(hθ(x))(1y)log(1hθ(x))

Jθ

Jθ=1mCost(hθ(x),y)

=1m[yilog(hθ(x(i)))(1yi)log(1hθ(x(i)))]

  • 梯度函数

3)高级优化方法

Advanced Optimization

如图左边显示的是优化方法,其中后三种是更加高级的算法,其优缺点由图邮编所示:
优点

  • 不需要手动选择α
  • 比梯度下降更快

缺点

  • 更加复杂

后面三种方法只需了解即可,老师建议如果你不是专业的数学专家,没必要自己使用这些方法。。。。。。当然了解一下原理也是好的。

3. Solving the problem of Overfitting

1) 过拟合

主要说一下过拟合的解决办法:
1)减少特征数量

  • 手动选择一些需要保留的特征
  • 使用模型选择算法(model selection algorithm)

2)正则化

  • 保留所有特征,但是参数θ的数量级(大小)要减小
  • 当我们有很多特征,而且这些特征对于预测多多少少会由影响,此时正则化怎能起到很大的作用。

2) 正则化损失函数

图示右边很明显是过拟合,因此为了纠正加入了正则化项:1000·θ32,为了使得J(θ)最小化,所以算法会使得θ3趋近于0,θ4也趋近于0。

正则化损失函数表达式:

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθ2j]

minθ[12m(i=1m(hθ(x(i))y(i))2+λj=1nθ2j)]

3) 正则化线性回归

  • 正则化梯度下降:

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθ2j]

Jθθj=1mi=1m(hθ(x(i))y(i))x(i)j+λmθj

Repeat{

θ0:=θ0α1mi=1m(hθ(x(i))y(i))x(i)0

θj:=θjα[(1mi=1m(hθ(x(i))y(i))x(i)0)+λmθj]j{1,2,3n}

}

  • 正则化正规方程

前面提到过,若m< n,那么XTX是不可逆的,但是加上λ·L后则变为可逆的了。

4) 正则化逻辑回归

J(θ)=1m{i=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]}+λ2mj=1nθ2j

梯度下降过程





MARSGGBO♥原创

2017-8-2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值