线性回归、logistic回归、广义线性模型——斯坦福CS229机器学习个人总结（一）

最新推荐文章于 2025-04-12 23:00:45 发布

NJiahe

最新推荐文章于 2025-04-12 23:00:45 发布

阅读量5w

点赞数 82

分类专栏：机器学习个人总结文章标签：机器学习线性回归 logistic回归广义线性模型

本文链接：https://blog.csdn.net/sinat_37965706/article/details/69204397

版权

纪念我第一个博客的碎碎念

先前我花了四五个月的业余时间学习了Ng的机器学习公开课，学习的过程中我就在想，如果我能把这个课程啃完，就开始写一些博客，把自己的所得记录下来，现在是实现的时候了。也如刘未鹏的《暗时间》里所说，哪怕更新频率很低，也应该坚持（从现在开始）写博客，记录有价值的东西（思考的产物），好处多多。我没有大神的气场，只是觉得，就算没人看，作为自己的备忘也不错，侥幸能坚持很久的话，日积月累下也会非常赏心悦目。

为了完成这个课程，我捡回了概率和线代以及统计学的知识，英语对我而言也从一门符号学真正地变成了一门语言，虽然我现在的英语水平还是不怎么样，但是我真正意识到了它的重要性，现在英语对我是有吸引力的，我想要接触和学习它，而不是先前那样我对它有一种先入为主的排斥感。

对我来说学习过程中仅有讲义和授课视频还是不够的，为了寻找更多的资料，我先是找到张雨石的公开课笔记，在惊叹与佩服中学习着，然后在一次无意中点开了他的其他文章，阅读着他平稳中带着精彩的经历，发现这么厉害一个人也在佩服着其他人，也在不断地学习、思考、进步着，那可真是一山更比一山高，这或许也正是他们出色的原因。

在开始这个课程的学习的同时，我也开始在阅读一些使心智变成熟与时间管理这样的书，而在张雨石一年又一年的书单中，我记下了我打算看的书的名字并标上了星级，其中我对《暗时间》这本书的名字十分感兴趣，立刻就下载来看了，结果确实不失所望，作者刘未鹏也是一个非常棒的人，他的个人经历、一些方法论以及后面的对一些实在的算法的分析解读，都让我看得非常开心和佩服，而看完这本《暗时间》之后，我的书单又加长了一些…并且不出所料，他也有比较推崇的人，是一位博客名前缀为g9的大大，而在搜到g9大大的博客，看到“负暄琐话”4个字和他给出的需要解码的email，以及他数量众多的博客之后，我再次窃喜：又是一位牛大啊…

这个课程的意义于我而言不仅仅是获得了课程中的知识那么简单。我仿佛因此打开了许多大门：我不再排斥英语，我开始阅读，我开始思考自身，我主动地学习，我透过博客与书籍接触到了很棒很有趣的人，并为之感到欢喜。我希望自己能够走近他们，最终成为他们之中的一员。

前言

首先是CS229这个课程的安排：http://cs229.stanford.edu/schedule.html
课程分为4个部分，分别是监督学习、学习理论、无监督学习、强化学习与控制。
以及课程资料：http://cs229.stanford.edu/materials.html
资料中包含了课程讲义（相当于课本），作业及解答，复习资料（这里的复习资料指的是此课程所需要的预备知识，包括贯穿全部的线性代数、概率论，SVM部分需要的凸优化知识，还有高斯进程，隐马尔科夫模型），与一些追加材料，大概是一些算法应用的例子和一些要注意的东西。
其中我想在一开始就说明的是，强化学习与控制部分是最后5个教学视频里的内容，但奇怪的是这个部分的讲义却只有一份，对应着第16个视频的内容，仅是马尔科夫过程的简介，往后4个视频里讲解的内容都没有讲义了，我在网上没找到这部分的讲义，后来我小心翼翼地写了一份邮件想要发到上面网页中提供的邮箱请他们把后面的讲义发给我，奈何在翻了墙和换了邮箱的情况下，邮件还是被退回，只好作罢。（求后面的讲义啊…）
接下来是网易公开课的视频：http://open.163.com/special/opencourse/machinelearning.html
这个课程有中文字幕，等于在听老师讲课。这个网页里打包好的课件中讲义、作业与解答是全的，复习资料少了三个，没有追加材料，如果要下载，建议把这个资料包下了，缺的又觉得有必要看的，再到CS229官网去下。
除了课本与授课老师之外，支撑着我完成已有讲义的学习的，还有这两份参考书，两份笔记都与讲义与授课内容高度统一，各有特点
张雨石的机器学习笔记专栏：http://blog.csdn.net/column/details/ml-ng-record.html
这份笔记注重授课内容的复述，可以看成是授课内容的文字版
还有这位JerryLead：http://www.cnblogs.com/jerrylead/default.html?page=3
这份笔记的突出之处在于这里有笔者自己的思考（比如对一些看似很自然的地方提出疑问或者把一些微妙的断点补上）与更高的完成度（Ng有时候会因为时间原因或者课程安排而没有把一些内容说满，这里完成了不少这样的内容）
他们都是我难望项背的人，这两份笔记也都给了我很大的帮助，放在这里没用对比优劣的意思，只是想把这些都记录下来。

1、线性回归（Linear Regression）

1.1、线性回归模型与解决方案

考虑下面的情况，这里给了一个房屋面积和价格的数据表：

并画出其数据：

这时候我们如何预测其他不同面积的房屋的价格？
方案是利用图中的点集拟合出一条合理的曲线（这个问题里拟合一条直线），然后用这条曲线预测新来的房屋的价格。
使用线性回归解决的话，h（Hypothesis）假设函数如下:

h θ (x) = θ 0 + θ 1 x 1 = \sum i = 0 1 θ i x i (1)

$h_\theta{(x)}=\theta_0+\theta_1x_1=\sum_{i=0}^1 \theta_ix_i\tag{1}$

hθ(x) $h_\theta{(x)}$ 表示函数

h $h$ 以

θ $\theta$ 为参数，有时候为了简略也会写成

h(x) $h{(x)}$ 。对于一般的问题，如特征不只有房屋面积，还有卧室个数、卫生间个数、大厅个数等n个特征的情况下，有如下公式:

h θ (x) = \sum i = 0 n θ i x i = θ T x (2)

$h_\theta{(x)}=\sum_{i=0}^n \theta_ix_i=\theta^Tx\tag{2}$
最后边的公式里参数

θ $\theta$ 和输入

x $x$ 都被视为向量，即

θT=[θ0θ1⋯θn] $\theta^T=\left[ \begin{matrix}\theta_0&\theta_1&\cdots&\theta_n\end{matrix}\right]$ ，

x=⎡⎣⎢⎢⎢⎢x0x1⋮xn⎤⎦⎥⎥⎥⎥ $x=\left[ \begin{matrix}x_0\\x_1\\\vdots\\x_n\end{matrix}\right]$
下面引出要优化的目标函数，同时它也是最小二乘法（Least squears）的成本函数（Cost function）：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 (3)

$J{(\theta)}=\frac{1}{2}\sum_{i=1}^m(h_\theta{(x^{(i)})}-y^{(i)})^2\tag{3}$
在上式中，

12 $\frac{1}{2}$ 会在求导的过程中被消去，只是为了让式子变得好看点，对直线的拟合工作不产生实际影响。

x $x$ 与

y $y$ 括号里的上标

(i) $^{(i)}$ 表示数据集里的第

i $i$ 个样本里的数据，如果把数据集里第一行的数据视为第一个样本，第二行数据视为第二个样本，以此类推，则

x(1)=2104 $x^{(1)}=2104$ ，

y(1)=400 $y^{(1)}=400$ ，

x(2)=1600 $x^{(2)}=1600$ ，

y(2)=330 $y^{(2)}=330$ ，……

hθ(x) $h_\theta{(x)}$ 表示利用拟合出来的直线得到的房屋价格的预测值，

y $y$ 表示房屋价格的实际值，对这个成本函数的直观理解就是——每个房屋的预测值与实际值之差的平方和。

我们的目标 $\Longrightarrow$ 找到一条直线预测新来的房屋价格
怎么画这条直线 $\Longrightarrow$ 参数 $\theta$ 决定
怎么对 $\theta$ 取值使预测结果尽量准确 $\Longrightarrow$ 最小化 $J(\theta)$ ，使每一个房屋的预测值与实际值之差的平方和最小，即误差最小
这样我们的目标就已经转移到了 $minJ(\theta)$ 。

1.2、方案可靠性研究——最小二乘的概率解释

这里有个问题，既然是要让误差最小，为什么不是计算预测值与实际值之差的绝对值 $\left|h_\theta{(x^{(i)})}-y^{(i)}\right|$ 之和呢？
一个是因为比较难算，还有一个就是因为这里有个对 $J(\theta)$ 的概率解释。
首先，让我们承认误差的存在，当预测值加上一个误差时，才能得到实际值：

y (i) = h θ (x (i)) + ϵ (i) = θ T x (i) + ϵ (i) (4)

$y^{(i)}=h_\theta(x^{(i)})+\epsilon^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}\tag{4}$
第二，我们假设误差

ϵ $\epsilon$ 服从正态分布（Normal distribution），也称为高斯分布（Gaussian distribution）:

ϵ(i) $\epsilon^{(i)}$ ~

N(0,σ2) $N(0,\sigma^2)$
误差服从正态分布这个假设有两个原因，一个是影响误差的因素有很多，这些因素都是随机分布的，但是它们在整体上会趋向于正态分布，另一个是因为在把误差假设为服从正态分布后，相应的工作一般都能取得比较好的效果，虽然它们还是没有非常精确，但是已经足够了。
通过这个假设以及正态分布的公式

f(x)=12π√σexp(−(x−μ)22σ2) $f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})$ ，我们可以得到

ϵ(i) $\epsilon^{(i)}$ 的概率密度：

p (ϵ (i)) = 1 2 π - - \sqrt σ exp (- ( ϵ ( i ) - 0 ) 2 2 σ 2) = 1 2 π - - \sqrt σ exp (- ( ϵ ( i ) ) 2 2 σ 2) (5)

$p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(\epsilon^{(i)}-0)^2}{2\sigma^2})=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})\tag{5}$
再把（4）式代进来，我们可以得到：

p (y (i) ∣ x (i); θ) = 1 2 π - - \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) (6)

$p(y^{(i)}\mid x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})\tag{6}$

p(y(i)∣x(i);θ) $p(y^{(i)}\mid x^{(i)};\theta)$ 可以读作“给定参数

θ $\theta$ 时，在

x(i) $x^{(i)}$ 发生了的情况下，

y(i) $y^{(i)}$ 发生的概率是多少”。注意里面的分号，分号是用来区别条件与参数的，如果把分号改成了逗号，如

p(y(i)∣x(i)，θ) $p(y^{(i)}\mid x^{(i)}，\theta)$ ，此时就应该读作“在

θ $\theta$ 与

x(i) $x^{(i)}$ 同时发生的情况下，

y(i) $y^{(i)}$ 发生的概率是多少”
第三，假设

ϵ(i) $\epsilon^{(i)}$ 是独立同分布（Independent and identical distribution）随机变量,这样我们就可以引出似然函数（Likelihood function）：

L (θ) = L (θ; X, y ⃗) = p (y ⃗ ∣ X; θ) = \prod i = 1 m p (y (i) ∣ x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) (7)

$\begin{align} L(\theta) & = L(\theta;X,\vec{y})\\ & = p(\vec{y}\mid X;\theta) \\ & =\prod_{i=1}^m p(y^{(i)}\mid x^{(i)};\theta)\\ & = \prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})\tag{7} \end{align}$

y⃗ $\vec{y}$ 是实际值集合的向量，

X $X$ 是特征的集合，m是样本的数量:

y ⃗ = [y (1) y (2) \dots y (m)] (8)

$\vec{y}=\left[ \begin{matrix}y^{(1)}&y^{(2)}&\cdots&y^{(m)}\end{matrix}\right]\tag{8}$

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 ⋮ x (m) 0 x (1) 1 x (2) 1 ⋮ x (m) 1 \dots \dots ⋱ \dots x (1) n x (2) n ⋮ x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ — (x (1)) T — — (x (2)) T — ⋮ — (x (m)) T — ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (9)

$X=\left[ \begin{matrix}x_0^{(1)}&x_1^{(1)}&\cdots&x_n^{(1)}\\x_0^{(2)}&x_1^{(2)}&\cdots&x_n^{(2)}\\\vdots&\vdots&\ddots&\vdots\\x_0^{(m)}&x_1^{(m)}&\cdots&x_n^{(m)}\end{matrix}\right]=\left[ \begin{matrix}—(x^{(1)})^T—\\—(x^{(2)})^T—\\\vdots\\—(x^{(m)})T—\end{matrix}\right]\tag{9}$
我们回过头来看

L(θ)=L(θ;X,y⃗ ) $L(\theta) = L(\theta;X,\vec{y})$ 这个式子的含义，我读作“

X $X$ 和

y⃗ $\vec{y}$ 被观测到时，参数为

θ $\theta$ 的概率是多少“，它与

p(y⃗ ∣X;θ) $p(\vec{y}\mid X;\theta)$ 所描述的是同一件事情，只是换了个角度来描述而已。
在这个表达下，

X $X$ 和

y⃗ $\vec{y}$ 都是常量，表示被观测到的值，比如一开始就提供的房屋面积与相应价格的数据表，同时参数

θ $\theta$ 成为了变量，即在观测到

X $X$ 和

y⃗ $\vec{y}$ 的前提下，每一个

θ $\theta$ 都有一个相对应的概率值。

举个例子：有两个箱子，甲箱里有99个白球1个黑球，乙箱里有1个白球99个黑球。参数 $\theta$ 是箱子里黑白球的配置比例， $X$ 是摸球这件事， $\vec{y}$ 是指摸到白球。
概率的问法是：从箱子里摸出白球的概率是多少？
答： $p(\vec{y}\mid X;\theta_甲)=0.99$ ， $p(\vec{y}\mid X;\theta_乙)=0.01$
用似然性的问法是：摸出来一个白球，猜是从哪个箱子里摸出来的？
答：甲箱。为什么？因为甲箱里摸到白球的概率更大。

现在，在 $X$ 和 $\vec{y}$ 被观测到的情况下（摸到白球），猜是从哪条由 $\theta$ 画出来的直线上观测到的（哪个箱子）？选择使 $X$ 和 $\vec{y}$ 出现的概率最大的那个 $\theta$ ，这也是最大似然估计（Maximum likelihood）的原则。
所以接下来的工作是对 $L(\theta)$ 求最大值，同时为了计算方便，我们选择最大化单调递增的 $logL(\theta)$ ：

最低0.47元/天解锁文章