第一周,深度学习的实践
1.1 训练,验证,测试集
应用型机器学习:高度迭代
项目启动–> 初步想法—> 构建特定层数 / 隐藏单元层 / 数据集个数 —> 编码 —> 运行和测试
深度学习:自然语言处理,计算机视觉,语音识别,结构化数据
结构化数据:广告,网络搜索
深度学习
- 自然语言处理
- 计算机视觉
- 语音识别
- 结构化数据
结构化数据
- 广告
- 网络搜索(网络搜索引擎,购物网站)
- 计算机安全
- 物流:判断司机去哪里送货
市场人员变动:
- 自然语言处理 --> 计算机视觉
语音识别 --> 广告行业
计算机安全 --> 物流行业
最佳决策:拥有数据量,计算机配置输入特征数量,用GPU还是CPU
深度学习:迭代,多次循环往复
循环效率:决定项目进展速度关键,高质量数据集 / 验证集 / 测试集可以提高循环效率
训练集 | 验证集 | 测试集 |
---|---|---|
60% | 20% | 20% |
100万条 | 1万条 | 1万条 |
99.5%(百万数据时) | 0.25% (百万数据时) | 0.25% (百万数据时) |
选择模型,验证不同算法 | 评估分类器性能 | |
不得不被称作:测试集 | 不需要无偏估计,则无 |
ps:
不需要无偏估计,则无测试集。
在训练集上训练,尝试不同模型框架,在验证集上评估这些模型,在迭代并选出适合的模型
1.2 偏差,方差
高偏差:欠拟合
高方差:过拟合
训练集误差:
验证集误差:
训练集 | 验证集 | 高方差 or 高偏差 | 分析 |
---|---|---|---|
训练集误差 | 验证集误差 | ||
11% | 1% | 高方差 | 过度拟合训练集,没有充分做到交叉验证 |
15% | 16% | 高偏差 | 训练数据拟合度不高,就是欠拟合 |
15% | 30% | 训练集不理想 |
最优误差 :贝叶斯误差
1.3 机器学习基础
正则化:减少 方差,方差权衡问题
1.4 正则化
高方差
- 过拟合
- 解决:
1.正则化:避免过拟合,减少网络误差
2.准备更多数据
正则化参数
L2正则化,L1正则化
1.5 为什么正则化有利于预防过拟合
添加正则项,避免数据权值矩阵过大
1.6 dropout正则化
dropout 随机失活:在向前传播时,让某个神经元的激活值以概率P停止工作,使模型泛化性更强,不会太依赖于某些局部特征
1.7 理解dropout
1.8其他正则方法
L2正则化,随机失活
数据扩增,早停法
早停法:模型在验证集表示下降时,停止训练,防止继续训练导致过拟合。只运行 一次 梯度下降
1.9 归一化输入
归一化步骤:零均值,归一化方差。
1.10 梯度消失/梯度爆炸