【花书阅读笔记】第一章到第四章
第一章 前言
- 人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务。
- 简单的机器学习算法的性能在很大程度上依赖于给定数据的表示
第二章 线性代数
2.1 标量、向量、矩阵和张量
- 标量:一个数
- 向量:一列数
- 矩阵:二维数组
- 张量:多维数组 Aijk
- 广播
2.2 矩阵与向量相乘
略
2.3单位矩阵与逆矩阵
略
2.4线性相关和生成子空间
2.5 范数
范数是向量的大小
当P=2时,称为欧几里得范数。
严格的说,范数是满足下面性质的任意函数:
L1范数与Frobenius范数
向量点积
2.6 特殊类型的矩阵和向量
对称矩阵
单位向量
正交矩阵
2.7 特征分解
例如:整数可以分解为质数
矩阵特征分解的用处
2.8 奇异值分解
奇异值分解也是一种分解矩阵的方法,可以把矩阵分解为奇异向量和奇异值
每个矩阵都有奇异值分解,但不一定有特征值分解,例如非方阵矩阵就没有特征值分解
2.9 Moore-Penrose伪逆
求非方阵的逆
2.10 迹运算
- 迹运算在转置运算下是不变的
- 多个矩阵乘积的迹:
- 标量在迹运算后仍然是它自己:
2.11 行列式
2.12 实例:主成分分析
略了先
第三章 概率与信息论
3.1 为什么要用概率?
机器学习不确定性的三个原因:
- 被建模系统内在的随机性
- 不完全观测
- 不完全建模
3.2 随机变量
随机变量是可以随机的取不同值的变量,可以连续也可以离散。
3.3 概率分布
概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
3.3.1 离散型变量和概率分布律函数
离散型变量的概率分布可以用概率分布律函数来描述。
概率分布律函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P(x = x,y =y)表示x = x和y =y同时发生的概率。我们也可以简写为P(a , y)。
3.3.2连续性变量和概率密度函数
3.4 边缘概率
3.5 条件概率
这里需要注意的是,不要把条件概率和计算当采用某个动作后会发生什么相混
淆。
计算一个行动的后果被称为干预查询 (intervention query)。干预查询属于因果模型 (causal modeling) 的范畴,我们不在本书中讨论。
3.6 条件概率的链式法则
3.7 独立性和条件独立性
3.8 期望,方差和协方差
方差和协方差
二者之间的关系
3.9 常用概率分布
Bernoulli分布(伯努利分布)
multinoulli分布(多项分布)
高斯分布
一般的,当不明确要使用什么分布时,首选正态分布,原因如下:
多维正态分布略
指数分布和Laplace分布
Dirac分布(迪瑞克分布)和经验分布![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/f46b1d8e8bad152f7eacff4b6d4e828e.png)
分布的混合
略了
3.10 常用函数的性质
logistic sigmoid函数
softplus函数
有用的性质
3.11 贝叶斯规则
3.12 连续型变量的技术细节
略了吧,懒得看 = =
雅可比矩阵
3.13 信息论
有空补充,感觉挺重要的。
3.14 结构化概率模型
有空补充
第四章 数值计算
4.1 上溢和下溢
一种特别的毁灭性舍入误差是下溢(underflow)。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。
另一个极具破坏力的数值错误形式是上溢(overflow)。当大量级的数被近似为o或-oo时发生上溢。进一步的运算通常导致这些无限值变为非数字。
必须对上溢和下溢进行数值稳定的一个例子是softmax 函数
底层库的开发者在实现深度学习算法时应该牢记数值问题。
4.2 病态条件数
4.3 基于梯度的优化方法(略)
有些临界点既不是最小点也不是最大点。这些点被称为鞍点 (saddle point)
4.3.1 梯度之上:Jacobian和Hessian矩阵
对于二阶导表示只基于梯度信息的梯度下降步骤是否会产生如我们预期的那样大的改善,因此是重要的
4.4 约束优化(略)
一个更复杂的方法是设计一个不同的、无约束的优化问题,其解可以转化成原始约束优化问题的解
4.5 实例:线性最小二乘
我们使用梯度下降法:
也可以用牛顿法:
看的都不太懂这几个小节