机器学习
- 监督学习(有数据有标签)
- 无监督学习(有数据无标签)
- 半监督学习
- 强化学习(陌生环境总结经验)
- 遗传算法(淘汰机制)
神经网络
生物:产生新连接
人工:误差反向传递
卷积神经网络 CNN
图片识别,视频分析,自然语言处理
以块为单位,当前与周围共同加权决定
池化
循环神经网络 RNN
写论文,写程序,作曲
序列化数据,参考以前的状态
问题:梯度消失,梯度爆炸
解决:长短期记忆 LSTM
自编码(无监督)
对输入数据(无监督)进行压缩 (+ 解压)。降维
生成对抗网络 GAN
Generator用随机数生成,Discriminator判断
黑盒
神经层的代表特征可以提取
迁移学习
借鉴已有经验
梯度下降
局部最优
神经网络技巧
检验神经网络
训练数据70% + 测试数据30%
误差曲线,精确度曲线
特征
标准化:预处理,使跨度尽量统一
好特征:有区分度,多维特征,避免无意义特征,避免重复特征,避免复杂特征
激励函数
处理不能用线性方程解决的问题,用激励函数“掰弯”线性函数
过拟合
解决:增加数据量,正则化,dropout
加速神经网络训练
SGD:分块批量
Momentum,AdaGrad,RMSProp,Adam
处理不均衡数据
更多数据,换个评判方式,重组数据,修改算法
批正则化
让每一层的值在有效的范围内传递
L1 L2 正则化
误差公式加项
强化学习
分数导向性
不理解环境 | 想象环境并从中学习
基于概率 | 基于价值
回合更新 | 单步更新
在线学习 | 离线学习
Q Learning
Q表——潜在奖励
Sarsa
更新方式不同
on-policy,在线学习
Sarsa(lambda)
回合更新
Deep Q Network (DQN)
策略梯度 Policy Gradients
Actor Critic
Deep Deterministic Policy Gradient (DDPG)
Asynchronous Advantage Actor-Critic (A3C)
并行运算,有效利用计算资源, 提升训练效用