关于机器学习的一些概念

在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

强化学习:

所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

在2d中,类似的代码在动作链那块,首先工作产生器会产生很多动作(属于我们自己创造的动作,类似监督学习),然后每一个动作执行之后,会产生一种状态,这种动作--状态对就类似强化学习中行为和状态。然后通过评估器(当然也是我们自己来写)给每一种状态进行评分,评分高的动作就会被执行。 虽然这一块很像很像强化学习,但是我觉得还是有区别的。首先强化学习是一个增量的过程,他会根据以前的“经验”来判断之后的行为。而2d中的评估是由我们人工写好的,每一次的动作都是根据那个评估器来评估,不会考虑到以前的“经验”。


监督学习:

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

我所理解的监督学习就是:提供标准答案的方式。主要应用是分类。


无监督学习:

这个学习比较屌,它和强化学习类似。不过我还是有点分不清俩者的区别


http://blog.csdn.net/lanyuanershe/article/details/9615371 这篇文章写得很好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值