机器学习算法分类---监督式、无监督、半监督、强化学习

机器学习算法分为四类:

1、监督式学习(Supervised learning)

监督式学习是拥有一个输入变量(自变量)和一个输出变量(因变量),使用某种算法去学习从输入到输出之间的映射函数。目标是得到足够好的近似映射函数,当输入新的变量时可以以此预测输出变量。因为算法从数据集学习的过程可以被看作一名教师在监督学习,所以称为监督式学习。监督式学习可以进一步分为分类(输出类别标签)和回归(输出连续值)问题。

2、非监督式学习(Unsupervised learning)

非监督式学习指的是只有输入变量,没有相关的输出变量。目标是对数据中潜在的结构和分布建模,以便对数据做进一步的学习。相比于监督式学习,非监督式没有确切的答案和学习过程也没有监督,算法肚子运行发现和表达数据中的结构。非监督式学习进一步可以分为聚类问题(在数据中发现内在的分组)和关联问题(数据的各部分之间的关联和规则)。

3、半监督式学习(Semi-Supervised Learning,SSL)

半监督式学习是一种监督式学习与非监督式学习相结合的一种学习方法。拥有大部分的输入数据(自变量)和少部分的有标签数据(因变量)。可以使用非监督式学习发现和学习输入变量的结构;使用监督式学习技术对无标签的数据进行标签的预测,并将这些数据传递给监督式学习算法作为训练数据,然后使用这个模型在新的数据上进行预测。

4、强化学习(reinforcement learning)

强化学习可以训练程序作出某一决定。程序在某一情况下尝试所有可能的行动,记录不同行动的结果并试着找出最好的一次尝试来做决定。是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。

和监督式学习的区别:监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。就好比你有一只还没有训练好的小狗,每当它把屋子弄乱后,就减少美味食物的数量(惩罚),每次表现不错时,就加倍美味食物的数量(奖励),那么小狗最终会学到一个知识,就是把客厅弄乱是不好的行为。两种学习方式都会学习出输入到输出的一个映射,监督式学习出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出,强化学习出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。另外强化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏,而监督学习做了比较坏的选择会立刻反馈给算法。而且强化学习面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入,而监督学习的输入是独立同分布的。通过强化学习,一个 agent 可以在探索和开发(exploration and exploitation)之间做权衡,并且选择一个最大的回报。 exploration 会尝试很多不同的事情,看它们是否比以前尝试过的更好。 exploitation 会尝试过去经验中最有效的行为。一般的监督学习算法不考虑这种平衡,就只是是 exploitative。

和非监督式学习的区别:非监督式不是学习输入到输出的映射,而是模式。例如在向用户推荐新闻文章的任务中,非监督式会找到用户先前已经阅读过类似的文章并向他们推荐其一,而强化学习将通过向用户先推荐少量的新闻,并不断获得来自用户的反馈,最后构建用户可能会喜欢的文章的“知识图”。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值