教你学Python45-新手的机器学习基础

 

总览

  • 通过一些基本概念入门机器学习领域

  • 统计学,人工智能,深度学习和数据挖掘是机器学习中使用的其他技术词汇中的少数

  • 了解不同类型的机器学习算法

 

介绍

近年来,人们对机器学习有了新的兴趣。这种复苏似乎是由强大的基础驱动的–全球各地的传感器正在以低廉的存储成本和最低的计算成本发射大量数据!

但是,并非每个人都了解什么是机器学习。这里有一些例子:

 

那么机器学习到底是什么呢?我的小实验...

为了确保我不会高估(或低估)目标受众的能力,我聘请了10位完全不熟悉分析的人员。他们之前都没有听说过机器学习(是的,有这样的人!)。他们说的是:

  • 我不知道,可能正在学习机器吗?

  • 使机器学习又名编程机器软件

  • 借助计算机学习

  • 通过在线课程学习(!!!)

 

那很有趣!完美的团队来解释机器学习。这是我开始向这些人解释的方式:

机器学习是指以最智能的方式(通过开发算法)处理海量数据以获取可行见解的技术。

这时候,他们看着我,好像我在火星人面前说了几句话!因此,我停下来,然后向他们询问一个问题,这些问题可能与更多问题有关:

KJ:当您在Google上搜索商品时,您会怎么想?

群组: Google显示与该搜索最相关的网页。

KJ:很好!但是到底发生了什么,Google才能向您显示这些相关页面?

这次看来他们在想更多。然后小组里有人

小组成员: Google查看用户过去的点击次数,以了解哪些页面与这些搜索更相关,然后将这些结果提供给搜索结果。

这是一个更好的尝试。我还必须控制自己的冲动,以鼓吹Google如何做到这一点比这个简单的概念要聪明得多。但是,我认为我在这里可以很好地解释机器学习。因此,我继续:

KJ:好的,听起来不错。但是,Google会定期处理多少次搜索以及进行什么样的搜索?

组:必须是一个真正的大数字–每年可能是一万亿次搜索

KJ:那么,您如何认为Google可以如此准确地满足如此多的请求?您是否认为有人坐在Google办公室中,并一直在决定哪些搜索结果相关,哪些无关?

小组成员:  尚未真正考虑过,但不,这听起来是不可能的。

KJ:对。这就是机器学习发挥作用的地方。机器学习是一组技术,可帮助以最智能的方式处理大量数据(通过开发算法或逻辑规则集)以得出可操作的见解(在这种情况下为用户提供搜索)。

小组中的顺理成章的点头,看起来任务完成了……是的!可是等等…

 

现在常见的问题–机器学习与X有何不同?

开始阅读有关机器学习的那一刻,您会看到各种火箭以极高的速度轰炸您。这些是行业中松散使用的行话。以下是其中的一些:人工智能,深度学习,数据挖掘和统计。

为了您的清楚理解,我在下面以简单的方式解释了这些术语。您还将了解这些术语在机器学习中的重要性:

 

X =人工智能(AI):

它是指对  计算机(机器)进行编程以使其具有理性的过程。 啊! 什么是理性的?理性是做出决定的基础。

我提到“理性”而不是智慧(如预期的那样),因为我们人类倾向于做出理性而可行的决策,而不是明确地智慧。这是因为所有明智的决定都不需要理性和可行(我的假设)。 因此,使用AI的主要动机是使计算机(机器)以花花公子的方式代替人工指导,而不是呆板呆板!

AI可能包括检查程序中某些参数是否正常运行的程序。例如,如果参数“ X”超过某个阈值,则机器可能会发出警报,进而可能影响相关过程的结果。

人工智能在机器学习中的使用

机器学习是AI的一个子集,其中训练了机器以从过去的经验中学习。过去的经验是通过收集的数据得到的。然后,它与诸如朴素贝叶斯(NaïveBayes),支持向量机(SVM)之类的算法结合以提供最终结果。

 

X =统计信息:

在这个高级阶段,我想您会了解统计信息。如果您不这样做,那么这是一个简单的定义,“统计”是指利用数据的数学分支,可以使用整个总体或从总体中抽取的样本来进行分析和提出推论。使用的一些统计技术是回归,方差,标准差,条件概率等。要了解此主题,请阅读如何使用统计信息了解人口分布?

 

统计学在机器学习中的使用

让我们了解一下。假设我需要将收件箱中的邮件分为两类:“垃圾邮件”和“重要”。为了识别垃圾邮件,我可以使用一种称为NaïveBayes的机器学习算法,该算法将检查过去的垃圾邮件的频率,以将新电子邮件识别为垃圾邮件。朴素贝叶斯使用统计技术贝叶斯定理(通常称为条件概率)。因此,可以说机器学习算法使用统计概念来执行机器学习。

附加信息:  机器学习和统计模型之间的主要区别来自于它们起源的学校。机器学习起源于计算机科学系,而统计建模则起源于数学系。同样,任何统计模型都假设许多分布,而机器学习算法通常无法确定所有属性的分布。

 

X =深度学习:

深度学习与机器学习算法(人工神经网络,ANN)相关联,该算法使用人脑的概念来促进任意功能的建模。人工神经网络需要大量数据,并且该算法在同时建模多个输出时具有很高的灵活性。ANN是一个更为复杂的主题,我们可能会在单独的文章中对此予以公正对待。

 

X =数据挖掘:

在开始分析的最初几天,我总是混淆两个术语:机器学习和数据挖掘。但是,后来我了解到,数据挖掘涉及搜索特定信息。机器学习仅专注于执行给定的任务。让我举一个例子来帮助我记住差异。教别人跳舞是机器学习。而让某人在城市中找到最好的舞蹈中心就是数据挖掘。简单!

 

另请阅读:在线机器学习简介

 

但是,我们究竟该如何教授机器?

教授机器涉及一个结构化过程,其中每个阶段都会构建一个更好的机器版本。为简化起见,示教机的过程可分为三个部分: 在以后的文章中,我将详细介绍这三个步骤。到目前为止,您应该已经明白,这3个步骤可确保对机器进行整体学习以同等重要地执行给定任务。机器的成功取决于两个因素:

1. 抽象数据的泛化程度如何。

2. 机器能够很好地将其学习成果用于实际用途,以预测未来的行动方案。

另请阅读:了解Scikit-Learn – Python中的机器学习工具

 

机器学习中使用了哪些步骤?

有5个基本步骤用于执行机器学习任务:

  1. 收集数据:无论是来自excel,access,文本文件等的原始数据,此步骤(收集过去的数据)都构成了未来学习的基础。相关数据的多样性,密度和容量越好,机器的学习前景就越好。

  2. 准备数据:任何分析过程都可以使所用数据的质量蓬勃发展。人们需要花费时间确定数据的质量,然后采取步骤解决数据丢失和离群值处理等问题。探索性分析也许是一种详细研究数据细微差别从而使数据的营养含量迅速增长的方法。

  3. 训练模型:此步骤包括选择适当的算法和以模型形式表示数据。清理后的数据分为两部分-训练和测试(比例取决于先决条件);第一部分(训练数据)用于开发模型。第二部分(测试数据)用作参考。

  4. 评估模型:为了测试准确性,使用了数据的第二部分(保持/测试数据)。此步骤根据结果确定算法选择的精度。检查模型准确性的更好测试是查看其在模型构建期间完全没有使用的数据上的性能。

  5. 改善性能:此步骤可能涉及完全选择其他模型或引入更多变量以提高效率。这就是为什么需要在数据收集和准备上花费大量时间的原因。

无论是哪种模型,这5个步骤都可以用来构造技术,当我们讨论算法时,您将发现这5个步骤在每个模型中的显示方式!

另请阅读:通过机器学习提高智能-Ada Boost和Gradient Boost

 

机器学习算法有哪些类型?

 

监督学习/预测模型:

顾名思义,预测模型用于根据历史数据预测未来结果。通常,从一开始就对预测模型给出明确的指导,例如需要学习什么以及如何学习。这些类的学习算法称为“ 监督学习”。

例如:当营销公司试图找出哪些客户可能流失时,使用“监督学习”。我们还可以使用它来预测发生地震,龙卷风等危险的可能性,从而确定总保险价值。使用的算法示例包括:最近邻居,朴素贝叶斯,决策树,回归等。

 

无监督学习/描述性模型:

它用于训练描述性模型,在这些模型中没有设置目标,并且没有一个功能比另一个功能重要。无监督学习的情况可以是:当零售商希望找出产品的组合是什么时,顾客往往会更频繁地购买商品。此外,在制药工业中,无监督学习可用于预测哪些疾病可能与糖尿病一起发生。此处使用的算法示例为:K-表示聚类算法

 

强化学习(RL):

这是机器学习的一个示例,其中训练机器根据业务需求做出特定决策,唯一的座右铭是最大化效率(性能)。强化学习所涉及的思想是:机器/软件代理根据其所处的环境连续地进行自我训练,并运用其丰富的知识来解决业务问题。这种持续的学习过程可确保减少人类专业知识的参与,从而节省大量时间!

RL中使用的算法示例是马尔可夫决策过程。

重要说明:  监督学习和强化学习(RL)之间有细微的差别。RL本质上涉及通过与环境交互来学习。RL代理从过去的经验中学习,而不是从不断的尝试和错误学习过程中学习,而不是由外部主管提供示例的监督学习。

了解差异的一个很好的例子是自动驾驶汽车。无人驾驶汽车使用强化学习不断做出决策-采取哪条路线?开什么速度?是与环境互动后确定的一些问题。监督学习的一个简单体现就是预测出租车从一个地方到另一个地方的票价。

 

机器学习有哪些应用?

了解机器学习的应用非常有趣。Google和Facebook广泛使用ML将其各自的广告推送给相关用户。这是您应该知道的一些应用程序:

  • 银行与金融服务:机器学习可用于预测可能拖欠贷款或信用卡账单的客户。这是最重要的,因为机器学习将帮助银行识别可以获得贷款和信用卡的客户。

  • 医疗保健:它用于根据患者的症状诊断致命疾病(例如癌症),并根据同类患者的过去数据对它们进行分类。

  • 零售:用于识别销售频率较高(快速移动)的产品和移动速度较慢的产品,这些产品有助于零售商决定将哪种产品引入货架或从货架上移除。此外,机器学习算法可用于查找一起销售的两个/三个或更多产品。这样做是为了设计客户忠诚度计划,进而帮助零售商发展和维护忠诚度客户。

这些例子只是冰山一角。机器学习实际上在每个领域都有广泛的应用。您可以查看一些Kaggle问题,以进一步了解问题。上面包含的示例很容易理解,并且至少让您体会了机器学习的全能。

 

尾注

在本文中,我们首先对机器学习是什么有了基本的了解。我们还研究了它如何与其他几个术语混淆。我们还介绍了机器教学的过程,机器学习中使用的基本步骤,机器学习中使用的算法以及机器学习的应用。

喜欢点下关注,你的关注是我写作的最大支持

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值