机器学习学习笔记2-有监督学习和无监督学习

监督学习:给定数据,预测结果,如分类系统、语音识别等,用的都是有监督的学习。监督学习是最常用的机器学习算法。

无监督学习:通过学习自己发现一些规律。无监督学习常用的场景:聚类、子空间估计、表征学习。

总结:监督学习就是学习输入和输出之间的映射关系,正确的输出已经由指导者提供;

无监督学习就是只给一堆数据,让程序自己去发现里面的规律。

与环境因素交互

我们从环境中提取大量数据,然后用这些数据进行学习,所有的学习过程都发生在算法与环境断开以后,这叫做离线学习。学习的过程并没有受到环境因素的影响。

如果考虑到与周围环境交互,各种问题就会随之而来。例如在无人车运动的过程中,每时每刻位置都在发生变化,周围的环境也在发生变化,上一分钟的决策可能会影响下一分钟的环境。

强化学习和对抗学习是明确考虑与环境交互的机器学习算法。

强化学习从环境中接受一个信号,然后做出一个动作,并将其传回环境,再从环境中获得奖励。这样,智能体从环境中得到一系列的信号,并做出一系列的动作。做出这些动作受到策略的约束。策略就是观察到的信号与做出的动作之间的映射。强化学习的目标就是制定一个好的策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值