深度学习:算法到实战(三)外一章

一、机器学习(深度学习)中的数学基础

1.线性代数:数据表示、空间变换的基础。

2.概率论(统计):模型假设、策略设计的基础。

3.最优化:求解目标函数的具体算法。

4.信息论:对于不确定性的度量,信息增益选择特征,交叉熵。

5.微积分:链式求导,泰勒展开。
6.矩阵线性变换,矩阵相乘对原始向量同时施加方向变化和尺度变化。对于特征向量,矩阵的作用只有尺度变化而没有方向变化。尺度变化系数就是特征值
7.线性代数:秩

  • 线性方程组的角度:度量矩阵行列之间的相关性。

  • 数据点分布的角度:表示数据需要的最小的基的数量

    (1)数据分布模式越容易被捕捉,即需要的基越少,秩就越小。
    (2)数据冗余度越大,需要的基就越少,秩越小。
    (3)若矩阵表达的是结构化信息,如图像、用户-物品表等,各行之间存在一定相关性,一般是低秩的。

8.数据降维,奇异值分解,较大奇异值包含了矩阵的主要信息。
9.低秩近似,其意义保留决定数据分布的最主要的模式/方向(丢弃的可能是噪声或其他不关键信息)。比如:推荐系统,图像去噪等。

在这里插入图片描述

二、机器学习三要素:模型、策略、算法

(一)概率/函数形式的统一

在这里插入图片描述

(二)“最优”的策略设计
  1. 策略目标:训练误差小 & 泛化错误低

  2. 策略设计: 无免费午餐定理,脱离具体问题,谈‘什么学习算法更好’ 毫无意义 (周志华),也就是说没有任何一个模型可以在所有的学习任务里表现最好。

  3. 策略设计: 奥卡姆剃刀原理,如果多种模型能够同等程度地符合一个问题的观测结果,应该选择其中使用假设最少的,也就是最简单的模型。

  4. 欠拟合:训练集的一般性质尚未被学习器学好,(训练误差大)。
    解决方法:提高模型复杂度
    ● 决策树:拓展分支
    ● 神经网络:增加训练轮数

  5. 过拟合:学习器把训练集特点当做样本的,一般特点. (训练误差小,测试误差大)。
    解决方法:降低模型复杂度
    ● 优化目标加正则项
    ● 决策树:剪枝
    ● 神经网络:early stop、dropout
    ● 数据增广(训练集越大,越不容易过拟合)。计算机视觉:图像旋转、缩放、剪切;自然语言处理:同义词替换;语音识别:添加随机噪声。

(三)损失函数
  1. 平方损失函数(回归)。
    L ( y , y ^ ) = ( y − f ( x , θ ) ) 2 L(y,\hat y)=(y-f(x,\theta))^2 L(y,y^)=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值