李宏毅机器学习day1

最新推荐文章于 2022-11-20 23:51:52 发布

qq_34116299

最新推荐文章于 2022-11-20 23:51:52 发布

阅读量142

点赞数 1

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/qq_34116299/article/details/90105427

版权

机器学习实战专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这篇博客介绍了机器学习的基础概念，重点讲解了中心极限定理及其在回归分析中的应用，包括线性回归和逻辑回归的损失函数、最大似然估计以及梯度下降法。此外，还探讨了正则化的L1-Norm和L2-Norm在防止过拟合中的作用。

摘要由CSDN通过智能技术生成

了解什么是Machine learning
机器学习就是从已知的有限的数据，发现其潜在的规律。通过数据训练得到训练模型，然后对未知数据进行预测
学习中心极限定理，学习正态分布，学习最大似然估计
中心极限定理：中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
(1) 推导回归 Loss function
logistic回归
$p(y=1|x)=\frac{1}{1+exp(-w^Tx)}$
$p(y=0|x)=1-\frac{1}{1+exp(-w^Tx)} =\frac{exp(-w^Tx)}{1+exp(-w^Tx)}$
交叉熵损失函数
> https://blog.csdn.net/tsyccnh/article/details/79163834
N—样本
$R(w)=-\frac{1}{N} \sum_{n=1}^N ((p(y=1|x)log(\hat{y}~)+(p(y=0|x)log(1-\hat{y}~)) =-\frac{1}{N} \sum_{n=1}^N ylog(\hat{y})+(1-y)log(1-\hat{y})$
二分类 y ⊂{0,1}
p(y=1|x:θ)=h(x),p(y=0|x:θ)=1-h(x)，合并起来 p(y|x:θ)=[ $h(x)^y$ ][ $1-h(x))^{1-y}$ ]
N个样本独立同分布，似然函数 $L(θ)=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)}:θ)$ （x,y）是已知的。求解(θ)。
所以取对数
$log(L(θ))=log(\prod_{n=1}^{N}p(y^{(n)}|x^{(n)}:θ)=\sum_{n=1}^N log(p(y^{(n)}|x^{(n)})=\sum_{n=1}^N log([h(x)^y][(1-h(x))^{1-y}])=\sum_{n=1}^N(ylog(h(x)+(1-y)log(1-h(x))$
线形回归
$y^{(i)}=θ^TX^{(i)}+ξ^{(i)}$ ξ 是模型与实际数值的误差。有中心极限定理加上独立同分布可知。ξ 属于高斯分布
$p(y^{(i)}|x^{(i)}:θ)=\frac{1}{\sqrt{2π}δ}e^-{\frac{(y^{(i)}-θ^TX^{(i)})^2}{2δ^2}}$
y和x是已知的。我们要求的是θ。采用最大似然估计。得到似然函数
$log(p)=log((\prod_{n=1}^{N}(\frac{1}{\sqrt{2π}δ}e^-{\frac{(y^{(i)}-θ^TX^{(i)})^2}{2δ^2}}))=\sum_{n=1}^Nlog(\frac{1}{\sqrt{2π}δ})-\sum_{n=1}^N{\frac{(y^{(i)}-θ^TX^{(i)})^2}{2δ^2}})$
(2) 学习损失函数与凸函数之间的关系

  (3) 了解全局最优和局部最优
有损失函数就可以看出。会有多个极值。极值就是局部最优的位置。然而极值并非最大值。最值一定是极值。最值就是全局最优点

学习导数，泰勒展开
(1) 推导梯度下降公式
线形回归； $h^{(i)}(θ)=θ_0+θ_1x_1^{(i)}+θ_2x_2^{(2)}+....θ_nx_n^{(n)}$
损失函数； $J(θ)=\frac{1}{2N} \sum_{n=1}^{N}(y^{(i)}-h^{(i)}(θ))^2$
$dθ_0=-\frac{1}{N} \sum_{n=1}^{N}(y^{(i)}-h^{(i)}(θ))$
$dθ_1=-x_1^{(i)}\frac{1}{N} \sum_{n=1}^{N}(y^{(i)}-h^{(i)}(θ))$
$dθ_2=-x_2^{(i)}\frac{1}{N} \sum_{n=1}^{N}(y^{(i)}-h^{(i)}(θ))$
…
更新 $θ_0:=θ_0-αdθ_0$
$θ_1:=θ_1-αdθ_1$
$θ_2:=θ_2-αdθ_2$
…
逻辑回归
$f(z)=\frac{1}{1+e^{-z}}$
$df(z)=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{1+e^{-z}}{(1+e^{-z})^2}-\frac{1}{(1+e^{-z})^2}=f(z)-f(z)^2=f(z)(1-f(z))$
$z^{(i)}(θ)=θ_0+θ_1x_1^{(i)}+θ_2x_2^{(2)}+....θ_nx_n^{(n)}$
$f(z^{(i)})=\frac{1}{1+e^{-z^(i)}}$
损失函数:
$J(θ)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(i)}log(f(z^{(i)}))+(1-y^{(i)})log(1-f(z^{(i)})))$
一个样本 $dJ(θ)=y\frac{\frac{df(z)}{d(z)}\frac{d(z)}{d(θ)}}{f(z)}-(1-y)\frac{{\frac{df(z)}{d(z)}\frac{d(z)}{d(θ)}}}{1-f(z)}=y\frac{f(z)(1-f(z))dθ}{f(z)}-(1-y)\frac{f(z)(1-f(z))dθ}{1-f(z)}=(y-f(z)dθ)$
$dJ(θ_{0})=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)}-f(z^{(n)})dθ_{0})$
$dJ(θ_{1})=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)}-f(z^{(n)})dθ_{1})$
$dJ(θ_{2})=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)}-f(z^{(n)})dθ_{2})$
…
更新 $θ_0:=θ_0-αdθ_0$
$θ_1:=θ_1-αdθ_1$
$θ_2:=θ_2-αdθ_2$
…
(2)写出梯度下降的代码
学习L2-Norm，L1-Norm，L0-Norm
(1) *推导正则化公式说明
$J(θ)=J_{(原来)}(θ)+λ\sum_{i=1}^{n}θ_{i}^2$ 注意 θ 从 1 开始。 $θ_0$ 相当于b，不做正则化。
$dJ(θ)=dJ_{(原来)}(θ)+λθ$
更新参数时：
$θ : = θ - α d (θ) = θ - α d (θ) - λ α θ = (1 - λ α) θ - α d (θ)$

(2) 为什么用 L1-Norm代替 L0-Norm学习
(3) 为什么只对 w/Θ 做限制，不对 b 做限制*
我认为w都是与数据挂钩的。r