解决过拟合
L1,L2,L…
优化器
Momentum(加一个下坡) 和 AdaGrad(加一双难走的鞋子)
rmsprop , Adam结合momentum和adagrad
处理不均衡数据
- 想办法获取更多数据
- 换个评判方式
– 准确率
– 误差cost
– confusion matrix
– precision & recall - 重组数据(复制合成数据)
- 使用其他机器学习方法
- 修改算法
为什么要标准化batch standard
在隐藏层对数据进行标准化
强化学习
需要有个老师打分,类似监督学习的标签
强化学习方法汇总
通过价值选行为: Q learning, Sarsa, Deep q Network
直接选行为:Policy Gradients
想象环境并从中选学习: Model
不理解环境 model-free RL
Q learning, Sarsa, Policy Gradients
只能一步一步
理解环境model
Q learning, Policy Gradients
可通过想象来预判