机器学习的内涵

###来自洪亮劼老师对机器学习的一个总结###

机器学习

机器学习:主要解决两类问题,监督学习和无监督学习。

学习机器学习主要就是要掌握解决这两类问题的基本思路:

那么解决这两类问题的基本思路是什么?

1、如何将现实场景中的问题抽象成相应的数学模型,并知道在这个抽象过程中,数学模型由什么假设。

2、如何利用数学工具,对相应的数学模型参数进行求解。

3、如何根据实际问题提出评估方案,对应用的数学模型进行评估,看是否解决了实际问题。

上面的三个步骤就是所有机器学习算法的核心思路。

监督学习:是指通过外部响应变量来指导模型学习我们关心的任务,并达到我们需要的目的。(有标签的学习)

监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。

无监督学习:往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。(没有明显的响应变量)

典型的无监督学习就是希望能够利用数据特征来把数据分组,“聚类”。

无监督学习还可以为监督学习提供更加有利的特征。通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,因此,监督学习中往往也需要无监督学习来进行辅助。


在学习机器学习模型和算法的时候,可以围绕“三步套路”,反复用这三个方面来审视当前的模型。另外,新的模型和算法的诞生,往往都是基于旧有的模型算法,在以上三个方面的某一个或几个进行创新。

监督学习的基础:

一、线性模型

二、决策树模型

三、神经网络模型

上述三类监督学习有可以细分为两类问题:1、分类问题;2、回归问题

分类问题的核心:如何利用模型判断一个数据点的类型。这个类别一般是离散的,如:二分类

回归问题的核心:利用模型来输出一个预测的数值。这个数值一般是一个实数,是连续的。

下面以线性模型的回归问题来做例子。这个思路可以推广到所有的机器学习算法。还按照“三步走”策略;

线性回归模型:

一、线性回归对现实场景如何抽象,顾名思义,线性回归认为显示场景中的响应变量(房价、票房)和数据特征之间存在线性关系。假设有两个部分:1、响应变量的预测值是数据特征的线性变换(参数是一组系数,预测值是系数和数据特征的线性组合)

2、响应变量的预测值和真实值之间有一个误差。这个误差服从一个正太(高斯)分布,分布的期望值是0,方差是thero的平方。

二、有了假设之后,线性回归模型的参数如何求解,比如教科书一般会介绍线性回归的解析解(close-form solution)但现实中一般不采用,因为要计算矩阵的逆运算,运算量很大。 线性回归中的参数还可以用数值计算的方法,如:梯度下降的方法求近似。然而,梯度下降需要对所有的数据点进行扫描。但数据量很多的时候,梯度下降会变得很慢。于是随机梯度下降算法应运而生。随机梯度下降并不需要对所有的数据点扫描后才对参数进行更新,而可以对一部分数据,有时可以是一个点进行更新。

**这里可以看到,同一个模型,可以用不同的算法来求解模型的参数。**

三、如何评估线性回归模型,线性回归模型是对问题的响应变量进行一个实数预测,那么最简单的评估方式是看预测值和真实值之间的绝对误差。如果每一个点都有一个误差,那么就可以通过求取平均值来计算出所有数据的平均误差。

上面的讨论可以扩张到监督学习的三类基本模型。

无监督学习,对于大多数现实应用场景中并不需要无监督学习。但是无监督学习,特别是深度学习支持下的无监督学习,是目前机器学习乃至深度学习的前沿研究方向。

无监督学习的主要目的是挖掘出数据内在的联系。不同的无监督学习方法对数据内部的结构有不同的假设。因此,无监督学习不同模型之间常常有很大的差别。在众多无监督学习中,聚类具有很重要的作用。

聚类算法有K-means, k均值算法认为数据由K个类别组成。每个类别内部的数据相距比较近,而距离所有其他类别中的数都比较遥远。所以,需要定义一个类别的距离以及距离函数本身。k-menas算法,数据到一个类别的距离被定义为到这个类别的平均点的距离。距离函数采用欧几里得距离,来衡量两个数据点之间的远近。

直接求解k均值的目标函数是一个NP难得问题。于是大多数现有的方法都是用迭代的贪心算法来求解。

k均值比较简单的衡量算法是,看所有类别内部的数据点的平均距离和类别两两之间的所有点的平均距离的大小。如果聚类成功,类别内部的数据点会相距较近,而类别两两之间的所有蛋的平均距离会比较远。















  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值