教你学Python48-系列(一)概述,目标,学习类型和算法

 

机器学习的定义

正如领域先驱Tom M.Mitchell所说的那样,经常引用并广泛接受的机器学习的正式定义是:

如果说计算机程序可以从经验E中学习有关某类任务T和绩效指标P的信息,那么计算机程序在P中对任务T的绩效(由P衡量)会随着经验E的提高而提高

以下是我描述机器学习的非正式形式。

机器学习是计算机科学的一个子领域,但通常也称为预测分析或预测建模。它的目标和用途是建立新的和/或利用现有的算法从数据中学习,以建立可给出准确预测的通用模型,或找到模式,尤其是使用新的和看不见的相似数据。

机器学习过程概述

想象一个数据集为一个表,其中的行是每个观测值(又名测量值,数据点等),每个观测值的列代表该观测值的特征及其值。

在机器学习项目开始时,通常将数据集分为两个或三个子集。最小子集是训练和测试数据集,并且通常还会创建一个可选的第三验证数据集。

一旦从主要数据集中创建了这些数据子集,就使用训练数据对预测模型或分类器进行训练,然后使用测试数据确定模型的预测准确性。

如前所述,机器学习利用算法来自动建模和查找数据模式,通常目的是预测某些目标输出或响应。这些算法主要基于统计和数学优化。

优化是找到函数的最小值或最大值(最小值或最大值)的过程,在最小化情况下通常称为损失或成本函数。机器学习中最流行的优化算法之一称为梯度下降,另一种称为正态方程。

简而言之,机器学习就是通过利用学习算法和优化技术,自动学习高精度的预测模型或分类器模型,或查找数据中的未知模式。

学习类型

机器学习的主要类别是有监督,无监督和半监督学习。我们将重点介绍本文的前两个。

在监督学习中,数据包含正在建模的响应变量(标签),目标是您希望预测未见数据的值或类别。无监督学习涉及从没有标签或响应变量的数据集中学习,因此更多地是关于发现模式而不是预测。

由于我是NFL和Chicago Bears的忠实拥护者,因此我的团队将帮助您举例说明这些学习方式!假设您拥有大量的芝加哥熊队的数据和统计数据,从其成为国家橄榄球联盟的特许成员(1920年)到现在(2016年)。

想象一下,数据的每一行本质上都是1920年以来每场比赛相关统计数据的团队快照(或观察)。在这种情况下,各列以及其中包含的数据代表数据的特征(值),并且可能包括功能数据,例如比赛日期,比赛对手,赛季获胜,赛季失利,赛季末分区位置,赛季后泊位(Y / N),赛季后统计数据,以及可能针对游戏三个阶段的统计数据:进攻,国防和特种部队。

在有监督的情况下,您的目标可能是使用这些数据来预测在给定的比赛期间以及在给定的场地(主场或客场),空头队是输还是输。请记住,在足球比赛前和比赛中的伤病,天气情况,糟糕的裁判员召唤等方面,任何事情都可能发生,因此,请简单地以应用为例,对有指导或无指导的监督学习进行应用(预测),而不是确定“大熊”获胜的可能性或可​​能性。

由于您拥有在某些足球场上针对某些球队的得失(响应)的历史数据,因此您可以利用监督学习来创建模型进行预测。

现在,假设您的目标是在历史数据中找到模式并学习您尚不了解的知识,或者在整个历史中以特定方式对团队进行分组。为此,您运行了一种无监督的机器学习算法,该算法会自动对数据进行聚类(分组),然后分析聚类结果。

经过一点分析,可能会发现随着时间的推移,这些自动生成的集群似乎将团队分为以下示例类别:

  • 强大的防守,较弱的跑步进攻,较强的传球进攻,较弱的特种球队,季后赛泊位

  • 强大的防守,强大的奔跑进攻,弱小的传球进攻,平均特殊球队,季后赛泊位

  • 防守薄弱,进攻能力强,特殊球队实力强,无缘季后赛

  • 等等

无监督聚类分析的一个示例是找出他们错过以上第三个聚类的季后赛的潜在原因。也许是由于防守薄弱?传统上,熊队是一支强大的防守队伍,有人说防守赢得了冠军。只是说...

在任何一种情况下,都可以发现上述每种分类都与某个预期的时间范围有关。也许在整个历史上以及在不同的时期内,这些团队中的一个都具有不止一次的特点。

为了以这种方式描述团队的特征而无需使用机器学习技术,则必须倾倒所有历史数据和统计数据,手动查找模式,并在考虑所有数据的情况下每年分配分类(集群),然后汇总信息。那绝对不是一个快捷容易的任务。

或者,您可以编写一个显式编码的程序来遍历数据,并且必须知道要考虑哪些团队统计数据,每个统计数据要考虑的阈值等等。编写代码将花费大量时间,并且对于需要答案的每个问题,都需要编写不同的程序。

或者…您可以采用机器学习算法在几秒钟内自动为您完成所有这些工作。

机器学习目标和输出

机器学习算法主要用于以下类型的输出:

  • 群集(无监督)

  • 两级和多级分类(监督)

  • 回归:单变量,多变量等(监督)

  • 异常检测(无监督和有监督)

  • 推荐系统(又名推荐引擎)

下一节将讨论用于每种输出类型的特定算法,但首先,让我们对上述每种输出或问题类型进行总体概述。

如上所述,聚类是一种无监督的技术,可用于发现给定数据集的组成和结构。这是将数据聚集到群集中以查看出现哪些分组(如果有)的过程。每个群集的特征是包含一组数据点和一个群集质心。聚类质心基本上是该聚类包含的所有特征中所有数据点的平均值(平均值)。

分类问题涉及将数据点(也称为观察点)放入预定义的类或类别中。有时,分类问题只是将类别分配给观察,而在其他情况下,目标是估计观察属于每个给定类别的概率。

两类分类的一个很好的例子是将垃圾邮件或火腿的类别分配给传入的电子邮件,其中火腿仅表示“不是垃圾邮件”。多类别分类仅意味着两个以上的可能类别。因此,在垃圾邮件示例中,第三类可能是“未知”。

回归只是一个奇特的说法,它表示模型将为数据观测分配连续值(响应),而不是离散类。一个很好的例子就是预测任何一天的道琼斯工业平均指数收盘价。该值可以是任何数字,因此是回归的理想选择。

请注意,有时会在实际上用于分类问题或预测离散分类响应(例如垃圾邮件或火腿)的算法的名称中使用“回归”一词。逻辑回归就是一个很好的例子,它可以预测给定离散值的概率。

另一个问题类型是异常检测。尽管我们很乐意认为数据行为良好且明智,但不幸的是,事实并非如此。有时由于故障或测量错误而导致数据点错误,或者有时由于欺诈而导致数据点错误。在其他时候,可能是异常的测量结果指示出现故障的硬件或电子设备。

有时,异常指示着真正的问题,并且不易解释,例如制造缺陷;在这种情况下,检测异常可以提供质量控制措施,并洞悉减少缺陷的措施是否奏效。无论哪种情况,有时发现这些异常值都是有益的,某些机器学习算法可以用来做到这一点。

问题的最终类型可以通过推荐系统或推荐引擎解决。推荐系统是一种信息过滤系统,旨在在许多应用程序中进行推荐,包括电影,音乐,书籍,饭店,文章,产品等。两种最常见的方法是基于内容的过滤和协作过滤。

流行推荐引擎的两个很好的例子是Netflix和Amazon提供的那些。Netflix提出了一些建议,以使观众参与其中并提供足够的内容来观看。换句话说,让人们继续使用Netflix。他们通过“因为您看过……”,“ Alex的热门精选”和“为您提供的建议”建议来做到这一点。

亚马逊做了类似的事情,以通过向上销售来增加销售,通过用户参与来保持销售等等。他们通过“同时购买了此商品的客户”,“ Alex的推荐给您”,“与您浏览过的商品有关”和“更多要考虑的商品”建议来做到这一点。

机器学习算法

现在,我们讨论了机器学习问题的类型和所需的输出。现在,我们将对相关的机器学习算法进行高层概述。

这是有监督的和无监督的算法列表,这些算法非常流行并且值得高水平地了解。注意,这些算法中的某些算法将在本系列的后面部分进行更深入的讨论。

监督回归

  • 简单多元线性回归

  • 决策树或森林回归

  • 人工神经网络

  • 序数回归

  • 泊松回归

  • 最近邻居方法(例如,k-NN或k-最近邻居)

有监督的两类和多类分类

  • Logistic回归和多项式回归

  • 人工神经网络

  • 决策树,森林和丛林

  • SVM(支持向量机)

  • 感知器方法

  • 贝叶斯分类器(例如,朴素贝叶斯)

  • 最近邻居方法(例如,k-NN或k-最近邻居)

  • 一类与所有多类

无监督

  • K均值聚类

  • 层次聚类

异常检测

  • 支持向量机(一类)

  • PCA(原理成分分析)

请注意,一种经常用于提高模型性能的技术是将多个模型的结果结合起来。这种方法利用了所谓的集成方法,而随机森林是一个很好的例子(稍后讨论)。

如果没有其他问题,那么至少要熟悉这些流行算法的名称是一个好主意,并对它们可能非常适合的机器学习问题和输出的类型有一个基本的了解。

摘要

机器学习,预测分析和其他相关主题是非常令人兴奋且功能强大的领域。

尽管这些主题可能是非常技术性的,但从较高的层次上来说,其中涉及的许多概念相对较容易理解。在许多情况下,只需根据机器学习问题,项目,技术等进行讨论就可以轻松理解。

 

喜欢点下关注,你的关注是我写作的最大支持

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值