什么是机器学习

机器学习通过模仿人类学习的做题、校验、归纳过程,利用模型、策略和算法三把金钥匙来实现。模型对应做题,策略对应校验,算法对应归纳。在监督学习中,模型根据输入信息预测答案,策略使用损失函数衡量预测误差,算法则寻找最小化损失的参数。无监督学习中,由于缺乏标签,不完全遵循此框架。
摘要由CSDN通过智能技术生成

机器学习

JaAAnf.png

机器学习从字面来看可以理解为是“让机器去学习”。我们人类,从小到大一直都在不停地学习与进步。最终用学来的知识造福整个社会。如果让某台机器也去学习,那么它将会具备和人类类似的思维方式。也就是可以实现让机器去造福人类社会,这无疑就是时代的进步。那么,机器学习到底是要让机器学会什么呢?要回答这个问题,就需要从人类的学习讲起。我们回想一下学生时代。在课本中,告诉了我们加法的计算方法和一些例题。有了这些输入后,我们就去学习并掌握了关于加法的知识点。那么在考试中,即使我们没有见过101+205的例题,也可以轻松回答出答案是306。讲到这里,你可以思考这样的一个问题。如果能把人类学习的过程进行抽象,凝练成一些固定的方法;再用某个机器(程序、软件、或计算机)去批量化执行这些方法,那么这个机器是否能和人类一样具备学习能力,并最终掌握某项知识呢?这个问题就是机器学习这门学科要解决的问题,也是机器学习的初衷。

JaAmNQ.png

有了这个初哀后,机器学习要解决的首要问题就是如何把人类学习的过程进行抽象,并凝练成固定的方法。为了回答这个问题,就需要从人类的学习的过程入手。我们知道,几乎每一本教材都会有例题和习题,这就说明了,在学习某个知识时,最不可或缺的就是做题。人通过做题,对做题结果进行校验,并总结、归纳结果做对或做错的原因,逐渐地就掌握了某项知识。这个凝练的过程就是做题、校验、归纳这三个步骤。

三把金钥匙

JaA3uV.png

人类学习是通过做题、校验、归纳,逐渐掌握某项知识。那么如果能把这些过程凝练成固定的方法和规则,机器就一定也可以具备学习的能力。对标人类的学习,机器学习也一定包含类似于“做题、校验、归纳”这样的三个步骤。在机器学习的知识体系中,我喜欢称之为机器学习的3把金钥匙,这3把金钥匙分别命名为“模型、策略、算法”。接下来,我们分别看一下这3把金钥匙是怎么一回事。

模型

JaAfgI.png

3把金钥匙之一的模型对标人类学习过程中的做题。做题就是根据题目信息,输出答案的过程。如果用数学语言来描述就是一个函数y=f(w,x)。其中,x代表的是题目的输入信息,通常也叫作特征向量(feature vector)。y就是模型给出的答案,通常也叫作预测值。而模型要计算答案依赖某些参数,这里用W来统一代替。因此,上面的公式就是机器学习的第一把金钥匙。

策略

JaE0iQ.png

3把金钥匙之二的策略对标人类做题后得到结果的校验过程。校验就是拿计算的答案和标准答案比对的过程。对于机器学习也是一样的。先前的第一把金钥匙已经给了我们预测值y,而且每个特征向量对应的标准答案(真实值 y ^ \hat{y} y^ )也是已知的。这样就可以通过某个函数,来衡呈预测值与真实值的距离,也就是结果有多对、或者有多错。在机器学习中,这个函数称为损失函数(Loss Function),用l(wW)来表示。如果用更泛化的数学语言来描述,就是

JaEOoD.png

对于这个通式而言,x和 y ^ \hat{y} y^ 是已知呈。因此,损失函数是关于模型参数w的函数。这就是第二把金钥匙的数学表达式。

算法

JaV9yt.png

3把金钥匙之三的算法,对标人类做题后,分析结果做对或做错的原因。根据第一把金钥匙,不难发现,题目做对或做错的关键原因在于W。第二把金钥匙又衡量了做对或做错的程度。那么,就可以通过调整w,让结果不断向做对的趋势前进。如果用数学语言来描述,那就是我们在第一课时中老生常谈的求极值。也就是说,学习的目标就是要找到让损失函数最小的W的值。因此,算法的数学表达式为

JaVZWj.png

表达的意思是 w 可以让损失函数 L(w) 取得最小值。

JaVfnP.png

我们对机器学习的3把金钥匙进行了梳理。你可能听说过线性回归、逻辑回归、决策树、神经网络等不同的机器学习模型,甚至还被这些模型不同的建模方法搞得晕头转向。但本质上,这些模型都会遵循上面所说的3把金钥匙。3把金钥匙对应3个数学表达式,也就是3个方程。你甚至可以简单粗暴地理解为机器学习就是解方程。只要你把这3个方程都解开,自然就学会了机器学习这门技术。

在讲述第二把金钥匙的时候,我们曾说特征向呈对应的标准答案(真实值 y ^ \hat{y} y^ )是已知的。这句话在绝大多数的场景都是正确的,但在某些场景中并不成立。也就是说,在某些机器学习问题中,代表标准答案的真实值是未知的。在处理这些问题时,由于没有真实值,损失函数也就变得没有意义了。第二把金钥匙失效后,第三把金钥匙也就没有意义了。那么是否可以说,这类问题机器学习就无从下手了呢?其实,这一类问题叫做无监督学习。在机器学习中,真实值也被称作标签。按照学习的对象是否包含标签,可以将机器学习划分为两类。

  • 对于标签未知的问题,叫作无监督学习;
  • 对于标签已知的问题,叫作监督学习。

标签已知的问题,自然遵循了3把金钥匙的框架。而标签未知的无监督学习则不再遵循。回想一下人类的学习,如果标准答案未知,你的学习深度一定会非常浅,最多也就是对题目本身的信息做一些统计上的分析,比如,这道题符号很多,是数学题;另一道题都是之乎者也,是语文题。至于题目的答案,在没有知识储备的情况下,你就不知道了。自然的没有标准答案的学习效果会非常差。因此,无监督学习的效果是不如监督学习的效果的。

JaZwgs.png

在监督学习中最具代表性的问题,是分类问题和回归问题。分类问题是对输入数据预测其归属于某个类别的过程,即预测结果为离散值。例如,预测某场足球寒的胜负关系,你可以理解为分类问题是选择题。回归问题是对输入数据预测其具体值的过程,即预测结果为连续值。例如,预测明天本市的降水量,你可以理解为回归问题就是填空题。绝大多数的监督学习问题,都可以被归属于这两个问题之一。对于无监督学习,问题可能会比较多变。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

落难Coder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值