人工智能,机器学习,深度学习,强化学习的区别和简介

 

机器学习的算法分类

(1) 监督式学习:为算法提供训练数据,数据中包含每个示例的“正确答案”;例如,一个检测信用卡欺诈的监督学习算法接受一组记录的交易作为输入,对于每笔交易,训练数据都将包含一个表明它是否存在欺诈的标记。
(2) 无监督学习:该算法在训练数据中寻找结构,比如寻找哪些示例彼此类似,并将它们分组到各个集群中。

深度学习(Deep Learning)是一种机器学习的技术,由于深度学习在现代机器学习中的比重和价值非常巨大,因此常常将深度学习单独拿出来说.最初的深度学习网络是利用神经网络来解决特征层分布的一种学习过程.通常我们了解的DNN(深度神经网络),CNN(卷积神经网络),RNN(循环神经网络),LSTM(长短期记忆网络)都是隶属于深度学习的范畴.也是现代机器学习最常用的一些手段.通过这些手段,深度学习在视觉识别,语音识别,自然语言处理(NLP)等领域取得了使用传统机器学习算法所无法取得的成就.

强化学习(Reinforcement Learning),又称再励学习或者评价学习.也是机器学习的技术之一.所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠自身的经历进行自我学习.通过这种学习获取知识,改进行动方案以适应环境.强化学习最关键的三个因素是状态,行为和环境奖励.关于强化学习和深度学习的实例,最典型的莫过于谷歌的AlphaGo和AlphaZero两位了,前者通过深度学习中的深度卷积神经网络,在训练了大约三千万组人类的下棋数据,无数度电的情况下才搞出来的模型,而后者使用强化学习的方式,通过自己和自己下棋的方式搞出来的模型.而最终的实验结果也很让人震撼.AlphaGo干败了人类围棋顶尖高手,而AlphaZero干败了AlphaGo

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值