斯坦福机器学习公开课（3）_吴恩达在斯坦福的《机器学习》公开课-CSDN博客

本文链接：https://blog.csdn.net/m0_37891619/article/details/77939119

1、参数学习算法和非参数学习算法

参数学习算法：是一类有固定数目参数的以用来进行数据拟合的算法。

非参数学习算法：它是一个参数数量会随着训练集大小m增长的算法。

2、局部加权回归（Local Weight Regression）:

局部加权回归主要是选择一个 $\theta$ 来拟合目标函数：

$\sum_{i=1}^{m}\omega_i(y^{(i)}-\theta x^{(i)})$

其中 $\omega_i=exp(\frac{(x-x^{(i)})^2}{2\tau^2})$

if $|x-x^{(i)}|\approx0，\omega_i\approx1$

if $|x-x^{(i)}|\approx\infty，\omega_i\approx0$

其中 $\tau$ 为波长因子。若 $\tau$ 很小，则 $\omega_i$
的值会下降的非常快；若 $\tau$ 很大，则 $\omega_i$
的值下降速度会很慢。

3、为什么选择最小二乘法做损失函数

假定 $y^{(i)} = \theta^{T}x^{(i)}+\epsilon^{(i)}$

其中 $\epsilon^{(i)}$ 为误差，它可能是由于我们在训练数据时漏掉了一部分数据的特征，或者是一些随机噪声造成的。其中假设 $\epsilon^{(i)} - N(0,\sigma^2)$ .

则 $P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt(2\pi)\sigma}exp(-\frac{(y^{(i)}-h_{\theta}(x^{(i)}))^2}{2\sigma^2})$

则 $y^{(i)}|x^{(i)}|\theta - N(\theta^Tx_i,\sigma^2 )$

为什么假设误差服从高斯分布呢？

中心极限定律：许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的（如买家、卖家的情绪、我们没有考虑到的其他特征），如果这些效应是独立的，那么根据中心极限定理这些效应的和服从高斯分布。一方面，这个假设是合理准确的；另一方面，这有利于后续的数学计算。

在这里我们遵从频率学派的观点，认为 $\theta$ 是一个固有的值，它并不是一个随机变量，虽然我们不能确定 $\theta$ 的值到底是多少。
我们假设 $\epsilon^{(i)}$ 是独立同分布的。
根据最大似然定理

$L(\theta)=P(\vec{y}|X;\theta)= \prod_{i=1}^mP(y^{(i)}|x^{(i)};\theta)= \prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{{(y^{(i)}-\theta^T x^{(i)})}^2}{2\sigma^2})$

$l(\theta)=\log L(\theta)=mlog\frac{1}{\sqrt(2\pi)\sigma}+\sum_{i=1}^{m}-\frac{{(y^{(i)}-\theta^T x^{(i)})}^2}{2\sigma^2}$

其中若使得 $l(\theta)$ 越大，则应使得上式中的第二项越小。即得到 $J(\theta)=\min \frac{{(y^{(i)}-\theta^T x^{(i)})}^2}{2}$ .

4、逻辑回归（Logistic Regression）:

令 $P(y=1|x;\theta)=h_\theta(x)=\frac{1}{1+exp(-\theta^T x)}$

则 $P(y=0|x;\theta)=1-h_\theta(x)$

则 $P(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{(1-y)}$

则利用最大似然函数：

$l(\theta)=\log L(\theta)=\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)}))$

利用梯度上升法，可求得 $\theta$ ：

$\theta=\theta+\alpha\bigtriangledown_\theta l(\theta)$
$\theta_j=\theta_j+\alpha\sum_{i=1}^{m}(y^{(i)}-h_\theta(x^{(i)})x^{i}_j$

5、中心极限定理

5.1、独立同分布的中心极限定理

设随机变量 $X_1,X_2,...,X_n$ 相互独立，服从同一分布，且其方差和期望分别为： $E(X_k)=\mu, D(X_k)=\sigma^2(k=1,2,...,n)$ ，则随机变量之和 $\sum_{k=1}^{n}X_k$ 的标准变量:

$Y_n=\frac{\sum_{k=1}^{n}X_k-E(\sum_{k=1}^{n}X_k)}{\sqrt{D(\sum_{k=1}^{n}X_k)}}=\frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}$

的分布函数 $F_n(x)$ 对任意 $x$ 满足：

$\lim\limits_{n \to \infty }{F_n(x)}=\lim\limits_{n \to \infty}P\left\{Y_n \leq x\right\}=\int_{-\infty}^{x}\frac{1}{\sqrt2\pi }exp(-\frac{t^2}{2})dt$