Task01:初识机器学习

机器学习介绍

机器学习,即让机器具有学习的能力。运用机器学习的手段,达到我们未来想要的人工智慧。而深度学习则是机器学习中的一个方法。

机器学习目的

学习机器学习,其实就是让机器能够自主学习。当我们编写一段代码之后,机器人能够有学习的能力,接下来完善程序使机器能够有自主学习的能力。例如,如果你希望他学会怎么做影像辨识,你只是需要下告诉它:看到这张图片,你要说这是猴子;看到这张图片,然后说是猫;看到这张图片,可以说是狗。它具有影像辨识的能力,接下来看到它之前没有看过的猫,希望它可以认识。
机器学习所做的事情,可以想成就是在寻找一个function,要让机器具有一个能力,这种能力是根据你提供给他的资料,它去寻找出我们要寻找的function。还有很多关键问题都可以想成是我们就是需要一个function。假设在语音辨识这个问题里面,我们要找一个function,它的输入是声音讯号,他的输出是语音辨识的文字。这个function非常非常的复杂,有人会想说我来用一些写规则的方式,读很多语言学文献,然后写一堆规则,然后做语音辨识。这件事情,60年代就有人做,但到现在都还没有做出来。语音辨识太过复杂,这个function太过的复杂,不是人类所可以写出来,这是可以想象的。所以我们需要凭借的机器的力量,帮我们把这个function找出来;假设你要做影像辨识,那就是找一个function,输入一张图片,然后输出图片里面有什么样的东西。
在做这些事时,你的起手事是你要先准备一个function set(集合),这个function里面有成千上万的function。举例来说,这个function在里面,有一个f1,你给它看一只猫,它就告诉你输出猫,看一只狗就输出狗。有一个function f2它很怪,你给它看猫,它说是猴子;你给他看狗,它说是蛇。你要准备一个function set,即模型,这个function set里面有成千上万的function。有了这个function set,接下来机器要做的事情是:它有一些训练的资料,这些训练资料告诉机器说一个好的function,它的输入输出应该长什么样子,有什么样关系。你告诉机器说呢,现在在这个影像辨识的问题里面,如果看到这个猴子,看到这个猴子图也要输出猴子,看到这个猫的图也要输出猴子猫,看到这个狗的图,就要输出猴子猫狗,这样才是对的。只有这些训练资料,你拿出一个function,机器就可以判断说,这个function是好的还是不好的。
三、机器学习分类机器学习简介
1.监督学习和无监督学习
    根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习和无监督学习不是严格定义的术语,它们之间界线通常是模糊的,很多机器学习算法都可以用于这两个任务。
    在选择机器学习算法时,首先考虑使用机器学习算法的目的。
    如果想要预测目标变量的值,则可以选择监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,则可选择分类算法;如果目标变量是连续型,则需要选择回归算法。
    如果不想要预测目标变量的值,则可以选择无监督学习算法。如果只是将数据划分成离散的组,则使用聚类算法;若需要进一步分析组内数据的联系,则使用关联分析算法。
2.半监督学习
    让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。
    在现实应用中,“有标记数据少,无标记数据多”是较普遍现象。若直接使用传统监督学习技术,则仅用有标记数据进行学习,学得的模型泛化能力往往不佳,而且无标记的数据也被浪费。半监督学习就是研究如何利用有标记数据与未标记数据来提升学习性能。
3.强化学习
    强化学习(reinforcement learning)任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:
① 机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;
② 机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态;
③ 在转移到另一个状态的同时,环境会根据潜在的“奖赏”(reward)函数R反馈给机器一个奖赏(在有的应用中,奖赏函数可能仅与状态转移有关),在强化学习任务中,学习的目的就是要找到能使长期累积奖赏最大化的策略。
    若将这里的“状态”对应为监督学习中的“示例”,“动作”对应为“标记类别”,则可看出,强化学习中的“策略”实际上就相当于监督学习中的“分类器”或“回归器”,模型的形式并无差别。但不同的是,在强化学习中并没有监督学习中的有标记样本(即“示例-标记类别”对),换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习。因此,强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值