机器学习

机器学习

监督学习supervised learning:给计算机看哪些图片是猫,哪些图片是狗,让他去分辩,就是学习这些标签可以代表那些图片,当然也可以用于股票涨跌,房价预测,神经网络也属于此范筹

无监督学习un-supervised learning:只提供猫与狗照片,但没说哪些是猫,哪些是狗,让其自行总结不同之处进行划分

半监督学习semi-supervised learning:少量有标签样本与大量无标签样本进行识别与分类

强化学习reinforcement learning:规划机器人行为准则,把计算机丢到一个对于它完全陌生的环境,或让它完成从未接触过的任务,例如让机器人学投篮,只给一个球,投进了就有分,让其自行尝试各种方法

遗传算法genetic algorithm:淘汰弱者,适者生存,例如让计算机打超级玛利奥

 

 

 

神经网络:

人工神经网络:不会有新神经元产,我已经知道吃糖时手会如何动,靠正向与反向传播进行误差项传递来更新误差系统

神经网络neural network

卷积神经网络convolutional neural network

循环神经网络recurrent neural network

长短期记忆long short-term memory

自编码autoencoder

生成对抗网络generative adversarial nets

梯度下降法gradient descent

迁移学习transfer learning

 

 

 

神经网络技巧:

检验神经网络evaluation,(交叉验证)

特征标准化feature normalization,房价预测时先把数据化为0至1区间内或均值为0

好特征good features,避免无意义信息,重复性信息,复杂信息

激励函数activation function,非线性方程,AF()卷积relu,循环sigmoid,tanh,必须可微分,因为要把误差反向传递

过拟合overfitting,插值时边界偏差太大,分类问题边界复杂,法一加大数据量,法二数据正规化,Y=WX,L1:COST=(WX-REAL Y)^2+ABS(W),L2:COST=(WX-REAL Y)^2+W*W,L3L4就是换成三次方四次方

加速神经网络训练speed up training,stochastic gradient descent,Momentum,Adagrad,RMSProp,Adam

不平衡数据imbalanced data,法一:准确率accuracy与误差cost,法二:confusion matrix , precision & recall , f1 score (or f-score),法三重组数据,支四使用其他机器学习方法

批标准化batch normalization

L1/L2正规化reglarization,误差J(c)=[yc(x)-y]2+入[ c1*c1+c2*c2 +…],平方是L2,ABS是L1

 

 

 

强化学习:reinforcement:

理解环境Model-Based RL与不理解环境Model-Free RL

基于概率Policy-Based RL与基于价值Value-Based RL

回合更新monte-carlo update与单步更新temporal-difference update

在线学习on-policy与离线学习off-policy

Q learning:找最短路,Sarsa:找最安全路

Sarsa(lambda):

Deep Q Network:Q LEARNING中加入深度神经网络

Policy Gradients:对每回合策略打分控制其权重

Actor Critic:对每步策略打分控制其权重

Deep Deterministic Policy Gradient:四个网络,策略梯度与基于价值都有估计与现实网络

Asynchronous Advantage Actor-Critic:并行优势

AlphaGo Zero:不需学习原有棋谱

 

 

 

进化学习:

遗传算法genetic algorithm

进化策略evolution strategy

神经网络进化neuro-evolution,进化算法比传统的梯度算法慢,但能达全局最优,若能实现并行强化,则能比梯度算法更优

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值