机器学习主要解决的是两类问题,监督学习和无监督学习。
掌握机器学习,主要就是学习、掌握解决这两类问题的基本思路。
解决监督学习和无监督学习的基本思路
- 1.如何把现实场景中的问题抽象成相应的数学模型。
- 2.如何利用数学工具对模型求解。
- 3.根据实际问题提出评估方案,对应用的数据模型进行评估,看是否解决了实际问题。
监督学习
1.什么是监督学习?
监督学习是指这么一个过程,通过外部的响应变量来指导模型学习我们关心的任务,并达到我们需要的目的。也就是说,监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。例:我们希望可以通过一系列特征值来预测某个地区的房屋销售价格,希望预测电影的票房。这里的“销售价格”、“电影票房”就是监督学习中的响应变量。
换个说法,从给定已经标注了的数据集中学习训练出一个模型,当新的未标注的数据输入时,可以根据训练好的模型得到预测结果。监督学习常用于处理“分类”问题。
2.监督学习的基础
监督学习的三类模型:
- 1.线性模型
- 2.决策树模型
- 3.神经网络模型
掌握这三类模型就掌握了监督学习的主干。利用监督学习来解决问题,占所有机器学习或人工智能任务的绝大多数,这里面有90%以上的监督学习问题都可用这三类模型得到比较好的解决。
这三类监督学习模型又可以细分为处理两类问题:
- 1.分类问题
- 2.回归问题
分类问题的核心是如何利用模型来判别一个数据点的类别。这个类别一般是离散的,比如两类或者多类。回归问题的核心则是利用模型来输出一个预测的数值。这个数值一般是一个实数,是连续的。
ps:线性回归模型(Linear Regression)是所有回归模型中最简单也是最核心的一个模型。
无监督学习
1.什么是无监督学习?
通常情况下,无监督学习并没有明显的响应变量。无监督学习的核心,往往是希望发现数据内部潜在的结构和规律,为我们进行下一步决断提供参考。典型的无监督学习就是希望能够利用数据特征来把数据分组,也就是“聚类”。
通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系。因此,监督学习中往往也需要无监督学习来进行辅助。
2.无监督学习的基础
无监督学习的主要目的就是挖掘出数据内在的联系。这里的根本问题是,不同的无监督学习方法对数据内部的结构有不同的假设。因此,无监督学习不同模型之间常常有很大的差别。在众多无监督学习模型中,聚类模型无疑是重要的代表。了解和熟悉聚类模型有助于我们了解数据的一些基本信息。
ps:K 均值算法(K-means)是聚类算法模型中最常见的、非常重要的算法模型。