教你学Python45-新手的机器学习基础

最新推荐文章于 2020-01-30 16:14:57 发布

程序员架构师13

最新推荐文章于 2020-01-30 16:14:57 发布

阅读量385

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/m0_37337849/article/details/104016281

版权

机器学习专栏收录该内容

51 篇文章 3 订阅

订阅专栏

总览

通过一些基本概念入门机器学习领域
统计学，人工智能，深度学习和数据挖掘是机器学习中使用的其他技术词汇中的少数
了解不同类型的机器学习算法

介绍

近年来，人们对机器学习有了新的兴趣。这种复苏似乎是由强大的基础驱动的–全球各地的传感器正在以低廉的存储成本和最低的计算成本发射大量数据！

但是，并非每个人都了解什么是机器学习。这里有一些例子：

那么机器学习到底是什么呢？我的小实验...

为了确保我不会高估（或低估）目标受众的能力，我聘请了10位完全不熟悉分析的人员。他们之前都没有听说过机器学习（是的，有这样的人！）。他们说的是：

我不知道，可能正在学习机器吗？
使机器学习又名编程机器软件
借助计算机学习
通过在线课程学习（!!!）

那很有趣！完美的团队来解释机器学习。这是我开始向这些人解释的方式：

机器学习是指以最智能的方式（通过开发算法）处理海量数据以获取可行见解的技术。

这时候，他们看着我，好像我在火星人面前说了几句话！因此，我停下来，然后向他们询问一个问题，这些问题可能与更多问题有关：

KJ：当您在Google上搜索商品时，您会怎么想？

群组： Google显示与该搜索最相关的网页。

KJ：很好！但是到底发生了什么，Google才能向您显示这些相关页面？

这次看来他们在想更多。然后小组里有人

小组成员： Google查看用户过去的点击次数，以了解哪些页面与这些搜索更相关，然后将这些结果提供给搜索结果。

这是一个更好的尝试。我还必须控制自己的冲动，以鼓吹Google如何做到这一点比这个简单的概念要聪明得多。但是，我认为我在这里可以很好地解释机器学习。因此，我继续：

KJ：好的，听起来不错。但是，Google会定期处理多少次搜索以及进行什么样的搜索？

组：必须是一个真正的大数字–每年可能是一万亿次搜索

KJ：那么，您如何认为Google可以如此准确地满足如此多的请求？您是否认为有人坐在Google办公室中，并一直在决定哪些搜索结果相关，哪些无关？

小组成员：尚未真正考虑过，但不，这听起来是不可能的。

KJ：对。这就是机器学习发挥作用的地方。机器学习是一组技术，可帮助以最智能的方式处理大量数据（通过开发算法或逻辑规则集）以得出可操作的见解（在这种情况下为用户提供搜索）。

小组中的顺理成章的点头，看起来任务完成了……是的！可是等等…

现在常见的问题–机器学习与X有何不同？

开始阅读有关机器学习的那一刻，您会看到各种火箭以极高的速度轰炸您。这些是行业中松散使用的行话。以下是其中的一些：人工智能，深度学习，数据挖掘和统计。

为了您的清楚理解，我在下面以简单的方式解释了这些术语。您还将了解这些术语在机器学习中的重要性：

X =人工智能（AI）：

它是指对计算机（机器）进行编程以使其具有理性的过程。啊! 什么是理性的？理性是做出决定的基础。

我提到“理性”而不是智慧（如预期的那样），因为我们人类倾向于做出理性而可行的决策，而不是明确地智慧。这是因为所有明智的决定都不需要理性和可行（我的假设）。因此，使用AI的主要动机是使计算机（机器）以花花公子的方式代替人工指导，而不是呆板呆板！

AI可能包括检查程序中某些参数是否正常运行的程序。例如，如果参数“ X”超过某个阈值，则机器可能会发出警报，进而可能影响相关过程的结果。

人工智能在机器学习中的使用

机器学习是AI的一个子集，其中训练了机器以从过去的经验中学习。过去的经验是通过收集的数据得到的。然后，它与诸如朴素贝叶斯（NaïveBayes），支持向量机（SVM）之类的算法结合以提供最终结果。

X =统计信息：

在这个高级阶段，我想您会了解统计信息。如果您不这样做，那么这是一个简单的定义，“统计”是指利用数据的数学分支，可以使用整个总体或从总体中抽取的样本来进行分析和提出推论。使用的一些统计技术是回归，方差，标准差，条件概率等。要了解此主题，请阅读如何使用统计信息了解人口分布？

统计学在机器学习中的使用

让我们了解一下。假设我需要将收件箱中的邮件分为两类：“垃圾邮件”和“重要”。为了识别垃圾邮件，我可以使用一种称为NaïveBayes的机器学习算法，该算法将检查过去的垃圾邮件的频率，以将新电子邮件识别为垃圾邮件。朴素贝叶斯使用统计技术贝叶斯定理（通常称为条件概率）。因此，可以说机器学习算法使用统计概念来执行机器学习。

附加信息：机器学习和统计模型之间的主要区别来自于它们起源的学校。机器学习起源于计算机科学系，而统计建模则起源于数学系。同样，任何统计模型都假设许多分布，而机器学习算法通常无法确定所有属性的分布。

X =深度学习：

深度学习与机器学习算法（人工神经网络，ANN）相关联，该算法使用人脑的概念来促进任意功能的建模。人工神经网络需要大量数据，并且该算法在同时建模多个输出时具有很高的灵活性。ANN是一个更为复杂的主题，我们可能会在单独的文章中对此予以公正对待。

X =数据挖掘：

在开始分析的最初几天，我总是混淆两个术语：机器学习和数据挖掘。但是，后来我了解到，数据挖掘涉及搜索特定信息。机器学习仅专注于执行给定的任务。让我举一个例子来帮助我记住差异。教别人跳舞是机器学习。而让某人在城市中找到最好的舞蹈中心就是数据挖掘。简单！

另请阅读：在线机器学习简介

但是，我们究竟该如何教授机器？

教授机器涉及一个结构化过程，其中每个阶段都会构建一个更好的机器版本。为简化起见，示教机的过程可分为三个部分：在以后的文章中，我将详细介绍这三个步骤。到目前为止，您应该已经明白，这3个步骤可确保对机器进行整体学习以同等重要地执行给定任务。机器的成功取决于两个因素：

1. 抽象数据的泛化程度如何。

2. 机器能够很好地将其学习成果用于实际用途，以预测未来的行动方案。

另请阅读：了解Scikit-Learn – Python中的机器学习工具

机器学习中使用了哪些步骤？

有5个基本步骤用于执行机器学习任务：

收集数据：无论是来自excel，access，文本文件等的原始数据，此步骤（收集过去的数据）都构成了未来学习的基础。相关数据的多样性，密度和容量越好，机器的学习前景就越好。
准备数据：任何分析过程都可以使所用数据的质量蓬勃发展。人们需要花费时间确定数据的质量，然后采取步骤解决数据丢失和离群值处理等问题。探索性分析也许是一种详细研究数据细微差别从而使数据的营养含量迅速增长的方法。
训练模型：此步骤包括选择适当的算法和以模型形式表示数据。清理后的数据分为两部分-训练和测试（比例取决于先决条件）；第一部分（训练数据）用于开发模型。第二部分（测试数据）用作参考。
评估模型：为了测试准确性，使用了数据的第二部分（保持/测试数据）。此步骤根据结果确定算法选择的精度。检查模型准确性的更好测试是查看其在模型构建期间完全没有使用的数据上的性能。
改善性能：此步骤可能涉及完全选择其他模型或引入更多变量以提高效率。这就是为什么需要在数据收集和准备上花费大量时间的原因。

无论是哪种模型，这5个步骤都可以用来构造技术，当我们讨论算法时，您将发现这5个步骤在每个模型中的显示方式！

另请阅读：通过机器学习提高智能-Ada Boost和Gradient Boost

机器学习算法有哪些类型？