机器学习
监督学习supervised learning:给计算机看哪些图片是猫,哪些图片是狗,让他去分辩,就是学习这些标签可以代表那些图片,当然也可以用于股票涨跌,房价预测,神经网络也属于此范筹
无监督学习un-supervised learning:只提供猫与狗照片,但没说哪些是猫,哪些是狗,让其自行总结不同之处进行划分
半监督学习semi-supervised learning:少量有标签样本与大量无标签样本进行识别与分类
强化学习reinforcement learning:规划机器人行为准则,把计算机丢到一个对于它完全陌生的环境,或让它完成从未接触过的任务,例如让机器人学投篮,只给一个球,投进了就有分,让其自行尝试各种方法
遗传算法genetic algorithm:淘汰弱者,适者生存,例如让计算机打超级玛利奥
神经网络:
人工神经网络:不会有新神经元产,我已经知道吃糖时手会如何动,靠正向与反向传播进行误差项传递来更新误差系统
神经网络neural network
卷积神经网络convolutional neural network
循环神经网络recurrent neural network
长短期记忆long short-term memory
自编码autoencoder
生成对抗网络generative adversarial nets
梯度下降法gradient descent
迁移学习transfer learning
神经网络技巧:
检验神经网络evaluation,(交叉验证)
特征标准化feature normalization,房价预测时先把数据化为0至1区间内或均值为0
好特征good features,避免无意义信息,重复性信息,复杂信息
激励函数activation function,非线性方程,AF()卷积relu,循环sigmoid,tanh,必须可微分,因为要把误差反向传递
过拟合overfitting,插值时边界偏差太大,分类问题边界复杂,法一加大数据量,法二数据正规化,Y=WX,L1:COST=(WX-REAL Y)^2+ABS(W),L2:COST=(WX-REAL Y)^2+W*W,L3L4就是换成三次方四次方
加速神经网络训练speed up training,stochastic gradient descent,Momentum,Adagrad,RMSProp,Adam
不平衡数据imbalanced data,法一:准确率accuracy与误差cost,法二:confusion matrix , precision & recall , f1 score (or f-score),法三重组数据,支四使用其他机器学习方法
批标准化batch normalization
L1/L2正规化reglarization,误差J(c)=[yc(x)-y]2+入[ c1*c1+c2*c2 +…],平方是L2,ABS是L1
强化学习:reinforcement:
理解环境Model-Based RL与不理解环境Model-Free RL
基于概率Policy-Based RL与基于价值Value-Based RL
回合更新monte-carlo update与单步更新temporal-difference update
在线学习on-policy与离线学习off-policy
Q learning:找最短路,Sarsa:找最安全路
Sarsa(lambda):
Deep Q Network:Q LEARNING中加入深度神经网络
Policy Gradients:对每回合策略打分控制其权重
Actor Critic:对每步策略打分控制其权重
Deep Deterministic Policy Gradient:四个网络,策略梯度与基于价值都有估计与现实网络
Asynchronous Advantage Actor-Critic:并行优势
AlphaGo Zero:不需学习原有棋谱
进化学习:
遗传算法genetic algorithm
进化策略evolution strategy
神经网络进化neuro-evolution,进化算法比传统的梯度算法慢,但能达全局最优,若能实现并行强化,则能比梯度算法更优