【花书阅读笔记】第一章到第四章

最新推荐文章于 2022-03-29 20:20:24 发布

瞲_大河弯弯

最新推荐文章于 2022-03-29 20:20:24 发布

阅读量277

点赞数

分类专栏：自动化理论知识复习文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33950926/article/details/116803205

版权

自动化理论知识复习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

【花书阅读笔记】第一章到第四章

第一章前言
第三章概率与信息论
第四章数值计算

第一章前言

人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务。
简单的机器学习算法的性能在很大程度上依赖于给定数据的表示

第二章线性代数

2.1 标量、向量、矩阵和张量

标量：一个数
向量：一列数
矩阵：二维数组
张量：多维数组 A_i_j_k
广播

2.2 矩阵与向量相乘

略

2.3单位矩阵与逆矩阵

略

2.4线性相关和生成子空间

在这里插入图片描述

2.5 范数

范数是向量的大小
在这里插入图片描述
当P=2时，称为欧几里得范数。
严格的说，范数是满足下面性质的任意函数：

在这里插入图片描述

L1范数与Frobenius范数

在这里插入图片描述

向量点积

在这里插入图片描述

2.6 特殊类型的矩阵和向量

对称矩阵

在这里插入图片描述

单位向量

在这里插入图片描述

正交矩阵

在这里插入图片描述

2.7 特征分解

例如：整数可以分解为质数
在这里插入图片描述

在这里插入图片描述

矩阵特征分解的用处

在这里插入图片描述

2.8 奇异值分解

奇异值分解也是一种分解矩阵的方法，可以把矩阵分解为奇异向量和奇异值
每个矩阵都有奇异值分解，但不一定有特征值分解，例如非方阵矩阵就没有特征值分解
在这里插入图片描述

2.9 Moore-Penrose伪逆

求非方阵的逆
在这里插入图片描述

2.10 迹运算

在这里插入图片描述

迹运算在转置运算下是不变的

在这里插入图片描述

多个矩阵乘积的迹：
标量在迹运算后仍然是它自己:

2.11 行列式

在这里插入图片描述

2.12 实例：主成分分析

略了先

第三章概率与信息论

3.1 为什么要用概率？

机器学习不确定性的三个原因：

被建模系统内在的随机性
不完全观测
不完全建模

3.2 随机变量

随机变量是可以随机的取不同值的变量，可以连续也可以离散。

3.3 概率分布

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

3.3.1 离散型变量和概率分布律函数

离散型变量的概率分布可以用概率分布律函数来描述。

概率分布律函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P(x = x,y =y)表示x = x和y =y同时发生的概率。我们也可以简写为P(a , y)。
在这里插入图片描述

3.3.2连续性变量和概率密度函数

在这里插入图片描述

3.4 边缘概率

在这里插入图片描述

3.5 条件概率

在这里插入图片描述
这里需要注意的是，不要把条件概率和计算当采用某个动作后会发生什么相混
淆。
计算一个行动的后果被称为干预查询 (intervention query)。干预查询属于因果模型 (causal modeling) 的范畴，我们不在本书中讨论。

3.6 条件概率的链式法则

在这里插入图片描述

3.7 独立性和条件独立性

在这里插入图片描述

3.8 期望，方差和协方差

在这里插入图片描述

方差和协方差

在这里插入图片描述

二者之间的关系

3.9 常用概率分布

Bernoulli分布（伯努利分布）

在这里插入图片描述

multinoulli分布（多项分布）

在这里插入图片描述

高斯分布

在这里插入图片描述
一般的，当不明确要使用什么分布时，首选正态分布，原因如下：

多维正态分布略

指数分布和Laplace分布

在这里插入图片描述

Dirac分布（迪瑞克分布）和经验分布

在这里插入图片描述

分布的混合

略了

3.10 常用函数的性质

logistic sigmoid函数

在这里插入图片描述

softplus函数

在这里插入图片描述

有用的性质

在这里插入图片描述

3.11 贝叶斯规则

在这里插入图片描述

3.12 连续型变量的技术细节

略了吧，懒得看 = =

雅可比矩阵

在这里插入图片描述

3.13 信息论

有空补充，感觉挺重要的。

3.14 结构化概率模型

有空补充

第四章数值计算

4.1 上溢和下溢

一种特别的毁灭性舍入误差是下溢(underflow)。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。

另一个极具破坏力的数值错误形式是上溢(overflow)。当大量级的数被近似为o或-oo时发生上溢。进一步的运算通常导致这些无限值变为非数字。

必须对上溢和下溢进行数值稳定的一个例子是softmax 函数

底层库的开发者在实现深度学习算法时应该牢记数值问题。

4.2 病态条件数

在这里插入图片描述

4.3 基于梯度的优化方法（略）

在这里插入图片描述
有些临界点既不是最小点也不是最大点。这些点被称为鞍点 (saddle point)

4.3.1 梯度之上：Jacobian和Hessian矩阵

在这里插入图片描述

在这里插入图片描述

对于二阶导表示只基于梯度信息的梯度下降步骤是否会产生如我们预期的那样大的改善，因此是重要的

4.4 约束优化（略）

在这里插入图片描述
一个更复杂的方法是设计一个不同的、无约束的优化问题，其解可以转化成原始约束优化问题的解

4.5 实例：线性最小二乘

在这里插入图片描述
我们使用梯度下降法：

也可以用牛顿法：

看的都不太懂这几个小节

瞲_大河弯弯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【花书阅读笔记】第一章到第四章

【花书阅读笔记】第一章前言第二章线性代数2.1 标量、向量、矩阵和张量2.2 矩阵与向量相乘2.3单位矩阵与逆矩阵2.4线性相关和生成子空间2.5 范数L1范数与Frobenius范数向量点积2.6 特殊类型的矩阵和向量对称矩阵单位向量正交矩阵2.7 特征分解矩阵特征分解的用处2.8 奇异值分解2.9 Moore-Penrose伪逆2.10 迹运算2.11 行列式2.12 实例：主成分分析第三章概率与信息论3.1 为什么要用概率？3.2 随机变量3.3 概率分布3.3.1 离散型变量和概率分布律函数3
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瞲_大河弯弯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。