关闭

斯坦福公开课Machine Learning笔记(二)--Classification and Logistic Regression

标签: 机器学习逻辑回归
183人阅读 评论(0) 收藏 举报
分类:

斯坦福公开课Machine Learning笔记(二)–Classification and Logistic Regression

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

1. Logistic Regression

线性回归比较适合预测的问题,对于分类问题,Logistic Regression用的就非常广泛了.

训练集:
X={x(1),x(2),...,x(m)}
y={y(1),y(2),...,y(m)}, y{0,1}
LR其实是在线性回归的基础上再加上一个非线性函数sigmoid 函数,让其更好的适应分类问题,其函数图象如下:

这里写图片描述
LR:

hθ(x)=g(θTx)=11+eθTx

其中g(z)=11+ez
z+时, g(z)=1, 当z时, g(z)=0
g(z) 可以看做是概率,可以比较好的适应分类问题.
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1hθ(x)
P(y|x;θ)=hyθ(1hθ)1y
:
L(θ)=P(y⃗ |x;θ)=i=1mP(y(i)|x(i);θ)=i=1mhyθ(1hθ)1y

:
l(θ)=logL(θ)=i=1m(yiloghθ(x(i))+(1y(i))log(1hθ(x(i))))

然后可以使用梯度下降法或者随机梯度下降法优化问题:
θj:=θjαθjl(θ)

其中:
θjl(θ)=(y1g(θTx)(1y)11g(θTx))θjg(θTx)=(y1g(θTx)(1y)11g(θTx))g(θTx)(1g(θTx))θjθTx=(y(1g(θTx))(1y)g(θTx))xj=(yhθ(x))xj

θj:=θjα(y(i)hθ(x))x(i)j

2. The perceptron learning algrithm

感知器算法与LR类似,同样是在线性上加上一个非线性的函数,但是比LR简单.

g(z)={10z0z<0

再简单列出迭代函数:
θj:=θjα(hθ(x(i))y(i))x(i)j

3.Another algorithm for optimizing (牛顿法)

这里Ng没有讲的特别详细,主要讲解了牛顿法的思想以及推广.
牛顿法:

θ:=θl(θ)l′′(θ)

这里写图片描述
其基本思想就是:
最优化问题中,可以令f(x)=0,这样可以求得极大极小值。举个栗子,上图就是f(x) 的图像。然后通过某个点的导数,快速得到f(x)=0 的点。 其实就是通过二阶导数来快速得到f(x) 的极值。
而使用泰勒展开式展开到二阶:
f(x+Δx)=f(x)+f(x)Δx+f′′(x)Δx2
当且仅当Δx无限趋向于0时成立。
f(x)Δx+f′′(x)Δx2=0 与上式等价。
Δx=f(x)f′′(x)
θ:=θl(θ)l′′(θ)

以上是二维的情况,推广到高维:
θ:=θH1θl(θ)
其中Hij=2l(θ)θiθj

牛顿法与梯度下降法相比,收敛会快很多,毕竟是通过二阶导数来求极值。但是计算代价要高很多,因为要计算HH1

1
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:2965次
    • 积分:174
    • 等级:
    • 排名:千里之外
    • 原创:15篇
    • 转载:0篇
    • 译文:0篇
    • 评论:1条
    文章分类
    文章存档
    最新评论