深度学习之强化学习

本文探讨了监督学习与非监督学习的区别,包括监督学习依赖于带标签数据进行模型训练,非监督学习则通过聚类找出数据内在结构。此外,文章提到了生成对抗性网络在合成数据生成中的应用,并指出传统的离线学习虽然便于模式识别,但在智能代理与环境互动方面存在局限。
摘要由CSDN通过智能技术生成

监督学习与非监督学习

监督学习

监督学习是通过带有标签或对应结果的样本训练得到一个最优模型,再利用这个模型将所有输入映射为相应输出,以实现分类

非监督学习

非监督学习是在样本的标签未知的情况下,根据样本之间的相似性对样本集进行聚类,使类内差距最小化,学习出分类器

监督学习

例子: 假设我们需要预测患者的心脏病是否会发作,那么观察结果“心脏病发作”或“心脏病没有发作”将是样本的标签。 输入特征可能是生命体征,如心率、舒张压和收缩压等。

监督学习之所以能发挥作用,是因为在训练参数时,我们为模型提供了一个数据集,其中每个样本都有真实的标签。

即使使用简单的描述给定输入特征的预测标签,监督学习也可以采取多种形式的模型,并且需要大量不同的建模决策,这取决于输入和输出的类型、大小和数量。 例如,我们使用不同的模型来处理“任意长度的序列”或“固定长度的序列”。

无监督学习

生成对抗性网络(generative adversarial networks): 为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。 潜在的统计机制是检查真实和虚假数据是否相同的测试。 它是无监督学习的另一个重要而令人兴奋的领域。

机器学习的输入(数据)来自哪里?机器学习的输出又将去往何方?

到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。 这里所有学习都是在算法与环境断开后进行的,被称为离线学习(offline learning)。

离线学习有它的魅力:

好的一面是,我们可以孤立地进行模式识别,而不必分心于其他问题。  

但缺点是,解决的问题相当有限。 这时我们可能会期望人工智能不仅能够做出预测,而且能够与真实环境互动。 与预测不同,“与真实环境互动”实际上会影响环境。

这里的人工智能是“智能代理”,而不仅是“预测模型”。

因此,我们必须考虑到它的行为可能会影响未来的观察结果。

对于监督学习,从环境中收集数据的过程类似于:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值