西瓜书南瓜书02

惑心风暴

已于 2022-07-19 02:27:22 修改

阅读量228

点赞数

文章标签：机器学习人工智能算法

于 2022-07-19 02:26:41 首次发布

本文链接：https://blog.csdn.net/qq_41087781/article/details/125863690

版权

西瓜书南瓜书02

机器学习的三个步骤：

定假设空间：初步选定可能的模型

定优化方法：根据假设的特性选择合适的优化方法，通常是得出一个loss函数

定算法：实现模型，实现loss函数，参数迭代优化。

线性回归模型优化的两个角度：

1、均方误差最小化，求导获得最优点，得解

2、假设模型误差符合正态分布，利用最大似然估计求得最符合的正态分布时的表达式，求导得出最优点。（缺点：假设分布可能不准确，当线性模型不足以表达数据时，误差就会出现系统性分布而非随机分布，此时虽然可以求得解，但会带来无法缩小的误差）

3、由上述的缺点引出对数几率回归模型用于分类，非线性，无假设风险，输出可导，梯度可回传用于优化。用于回归任务时，任意阶可导，许多优化函数可以直接使用。

（其他的优化函数待扩充，以上两种方式的优劣和适用环境待扩充）

其他模型同理，但要注意非凸优化，以及复杂函数可能存在的局部最优陷阱。大多数机器学习的函数无法求出导函数，只能靠迭代求得梯度下降方向，因此会陷入局部最优陷阱。

广义线性模型：

$F(y)=w^Tx+b$
增强了线性模型的表达能力

信息熵：衡量一个分布的不确定性，均等分布最大，确定分布最小
$I(x)=-log_aP(x)$
相对熵（KL散度）：度量两个分布的差异。通常是给出一个理想分布p(x)和一个实际分布q(x)，来刻画两个分布的差异
$D_{KL}(p||q) = \sum_xp(x)*\log_b(p(x)/q(x)) = \sum_xp(x)\log_bp(x) - \sum_xp(x)\log_bq(x)$
求得的值越大，二者分布差异越大，这个也可以作为一个优化函数来使用