李宏毅机器学习》笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_43369974/article/details/90182918

《李宏毅机器学习》第一课笔记
input：
观看李宏毅课程内容：P1、P2。
视频连接：https://www.bilibili.com/video/av35932863?from=search&seid=2134843831238226258
output：

什么是机器学习？
中心极限定理、正态分布、最大似然估计
线性回归 Loss Function 推导
损失函数和凸函数之间的关系
全局最优和局部最优
导数、泰勒展开
梯度下降推导及 python 实现
牛顿法推导及 python 实现
L2-Norm、L1-Norm、L0-Norm
正则化
什么是机器学习

Artificial Intelligence，AI 也称为人工智能，亦称人工智慧。

人工智慧—目标
机器学习—工具、手段
人的智慧分为先天的智慧和后天的学习获得，一个人很有智慧，要么是先天就很有智慧，要么就是后天的生活经历提取出智慧。工业革命使机器的体力远远超越了人类的体力，如何让机器获取智慧，起初为了使得机器获得人工的智慧，需要大量的工程师写基于不同场景的 if-else 进行规则的判断执行，隐患是机器无法超越创造者的智慧和不灵活，后来出现了机器学习可以从大量的数据样本中提炼数据规律，抽取智慧，甚至远远超过人在单一方面的智慧。

人的大脑智慧实在是太过于复杂。

图像识别：基于图像数据提取智慧的机器学习算法
自然语言处理：基于文本数据提取智慧的机器学习算法
结构化数据：基于结构化数据提取智慧的机器学习算法
这仅是监督学习的一部分，正常的步骤就是切分训练集和测试集，训练集用于提取智慧规律，测试集验证智慧的提取，由于评估智慧提取的部分，有不少各有特点的模型评估方法，提取智慧规律也有不同的损失函数，优化提取学习方向也有不同的优化函数，数据特征的提取-特征工程也有不同特征处理的方法，此处就不一一列举了。

让我惊艳的一点是 P1 提到的 Reinforcement Theory，增强学习，通过获取当前表现评价来进化抽取智慧，符合人学习循序渐进的过程，学习过程中成长，在推荐系统中未尝不是一个好的方向，设计好推荐后推荐结果评价的打分公式。

中心极限定理、正太分布、最大似然估计

中心极限定理（Central Limit Theorem）
设从均值为μ、方差为σ2总体中抽取样本量为n的样本，当抽取次数充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。
大量相互独立的随机变量，其均值（或者和）的分布以正态分布为极限。意思就是当满足某些条件的时候，比如Sample Size比较大，采样次数区域无穷大的时候，就越接近正态分布，这个定理神奇的地方在于，无论是什么分布的随机变量，都满足这个定理。

正态分布
正态分布（normal distribution）又名高斯分布（Gaussian distribution），是一个非常常见的连续概率分布。
若随机变量X服从一个均值为μ，σ的平方的正态分布，其中μ为均值，σ的平方为方差，则记为：

最大似然估计（Maximum likelihood estimation）
先说下似然与概率的关系。
概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性。
似然刚好相反，是在确定的结果下去推测产生这个结果的可能环境（参数）。
以抛硬币为例，从似然的角度出发，假设我们观测到的结果是 x=0.5（即某一面朝上的概率是50%，这个结果可能是通过几千次几万次的试验得到的，总之我们现在知道这个结论），可以得到以下的似然函数：

上面的 p（硬币的性质）就是我们说的事件发生的条件，L描述的是性质不同的硬币，任意一面向上概率为50% 的可能性有多大。

线性回归 Loss
Function 推导

A training set D = {(x_i,y_i)}_1^N

A loss founction L

The model F

Objective Function

obj = \sum_{i=1}^N L(y_i,F(x_i,w))

where

F(x_i;w)=w_1 x_1^i + w_2 x_1^i + …+ w_m x_m^i + b=w^T x^i + b

以上为简单线性回归的结构图，一般目标都是目标函数的最小化，损失函数的推导在梯度下降那部分会提到。

损失函数和凸函数的关系

待补

全局最优和局部最优

全局最优：人的学习亦是一个循序渐进的过程，假设人从出生到结束的那一天的整个学习过程，拥有一个全局整体的学习规划路径，那可做到在出生到结束那一天这个周期内的全局最优，模型的训练亦是循序渐进的过程，通过每一次迭代逐步收敛。

局部最优：即当前时刻的最优解，例如线性回归使用梯度下降作为模型的更新公式，每次仅考虑当前梯度最大的负方向前进，再例如树模型的分裂，做到获取全局分裂路径是N-P问题，基于贪心算法只考虑当前的最优分裂点。

导数和泰勒展开

导数：一个函数在某一点的导数描述了这个函数在这一点附近的变化率。

泰勒公式：泰勒公式是一个函数在某点的信息描述其附近取值的公式，局部有效性。

基本形式

f(x) = \sum_{n=0}^\infty \frac{f^{(n)} (x_0)}{n!} (x - x_0)^n

一阶泰勒展开

f(x) \approx f(x_0) + f^{’}(x_0)(x - x_0)

二阶泰勒展开

f(x) \approx f(x_0) + f^{’}(x_0)(x - x_0) + f^{’’}(x_0) \frac{(x-x_0)^2}{2}

迭代形式

假设 x^t=x{t-1} + \Delta x ，将 f(x^t) 在 x^{t-1} 处进行二阶泰勒展开

f(x^t) = f(x^{t-1}+\Delta t)=f(x^{t-1})+f{’}(x^{t-1}) \Delta t + f^{’’} (x^{t-1}) \frac{(\Delta t)^2}{2}

梯度下降推导及python实现

梯度下降通过一阶泰勒展开推导

迭代公式 \theta ^t = \theta ^{t-1} + \Delta \theta

将 f(x^t) 在 x^{t-1} 处进行一阶泰勒展开

L(\theta ^t) = L(\theta ^{t-1} + \Delta \theta) \approx L(\theta ^{t-1}) + L^{’}(\theta ^{t-1}) \Delta \theta

要使 L(\theta ^t) <L(\theta ^{t-1}) ，可取 \Delta \theta = - a L^{’}(\theta ^{t-1})

\theta ^t = \theta ^{t-1} - a L^{’}(\theta ^{t-1})

梯度下降更新过程

Objective Function

obj = \sum_{i=1}^N L(y_i,F(x_i,w))

where

F(x_i;w)=w_1 x_1^i + w_2 x_1^i + …+ w_m x_m^i + b=w^T x^i + b

if L is MSE

L(y_i,F(x_i,w))=(y_i-F(x_i,w))^2

SGD

\frac{\partial L}{\partial w_1} = \frac{\partial (w_1 x_1^i + w_2 x_2^i + … + w_m x_m^i + b - y_i)^2}{\partial w_1} = 2 x_1^i (w^Tx + b - y_i)

\frac{\partial L}{\partial b} = \frac{\partial (w_1 x_1^i + w_2 x_2^i + … + w_m x_m^i + b - y_i)^2}{\partial w_1} = (w^Tx + b - y_i)

此处为SGD，只考虑单个样本带来的参数更新的变化，当前获取的单个参数的更新公式

梯度= (2x_1^i(wT+b-y_i),2x_2^i(wT+b-y_i),…,2x_m^i(wT+b-y_i),(w^T+b-y_i))

牛顿法推导及python实现

牛顿法通过二阶泰勒展开推导

将 f(x^t) 在 x^{t-1} 处进行二阶泰勒展开

L(\theta ^t) = L(\theta ^{t-1} + \Delta \theta) \approx L(\theta ^{t-1}) + L^{’}(\theta ^{t-1}) \Delta \theta + L^{’’}(\theta ^{t-1}) \frac{(\Delta \theta)^2}{2}

假设参数是标量，即 \theta 只有一维，则可将一阶和二阶导数分别记为 g 和 h。

L(\theta ^t) \approx L(\theta ^{t-1}) + g \Delta \theta + h \frac{(\Delta \theta)^2}{2}