什么是机器学习？

最新推荐文章于 2022-06-06 23:31:24 发布

cleo_xl

最新推荐文章于 2022-06-06 23:31:24 发布

阅读量664

点赞数

机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习：监督学习、非监督学习和强化学习，所有这些都有其特定的优点和缺点。

监督学习涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。在分类中，机器被训练成将一个组划分为特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤器分析你以前标记为垃圾邮件的电子邮件，并将它们与新邮件进行比较。如果它们匹配一定的百分比，这些新邮件将被标记为垃圾邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。

第二种监督学习是回归。在回归中，机器使用先前的(标记的)数据来预测未来。天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量)，你的手机天气应用程序可以查看当前天气，并在未来的时间内对天气进行预测。

在无监督学习中，数据是无标签的。由于大多数真实世界的数据都没有标签，这些算法特别有用。无监督学习分为聚类和降维。聚类用于根据属性和行为对象进行分组。这与分类不同，因为这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如，基于年龄和婚姻状况)，然后应用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则。

最后，强化学习使用机器的个人历史和经验来做出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同，强化学习不涉及提供“正确的”答案或输出。相反，它只关注性能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要重复这一动作。同样的道理，一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后，国际象棋的这一基本教训就可以被扩展和推断出来，直到机器能够打(并最终击败)人类顶级玩家为止。

但是，等等，你可能会说。我们是在说人工智能吗？机器学习是人工智能的一个分支。人工智能致力于创造出比人类更能完成复杂任务的机器。这些任务通常涉及判断、策略和认知推理，这些技能最初被认为是机器的“禁区”。虽然这听起来很简单，但这些技能的范围非常大——语言处理、图像识别、规划等等。

机器学习使用特定的算法和编程方法来实现人工智能。没有机器学习，我们前面提到的国际象棋程序将需要数百万行代码，包括所有的边缘情况，并包含来自对手的所有可能的移动。有了机器学习，我们可以将代码量缩小到以前的一小部分。很棒对吧？

有一个缺失的部分：深度学习和神经网络。我们稍后会更详细地讨论它们，请注意，深度学习是机器学习的一个子集，专注于模仿人类大脑的生物学和过程。

机器学习算法：

1. 回归算法

这可能是最流行的机器学习算法，线性回归算法是基于连续变量预测特定结果的监督学习算法。另一方面，Logistic回归专门用来预测离散值。这两种（以及所有其他回归算法）都以它们的速度而闻名，它们一直是最快速的机器学习算法之一。

2. 基于实例的算法

基于实例的分析使用提供数据的特定实例来预测结果。最著名的基于实例的算法是k-最近邻算法，也称为KNN。KNN用于分类，比较数据点的距离，并将每个点分配给它最接近的组。

3. 决策树算法

决策树算法将一组“弱”学习器集合在一起，形成一种强算法，这些学习器组织在树状结构中，相互分支。一种流行的决策树算法是随机森林算法。在该算法中，弱学习器是随机选择的，这往往可以获得一个强预测器。在下面的例子中，我们可以发现许多共同的特征(就像眼睛是蓝的或者不是蓝色的)，它们都不足以单独识别动物。然而，当我们把所有这些观察结合在一起时，我们就能形成一个更完整的画面，并做出更准确的预测。

4. 贝叶斯算法

丝毫不奇怪，这些算法都是基于Bayes理论的，最流行的算法是朴素Bayes，它经常用于文本分析。例如，大多数垃圾邮件过滤器使用贝叶斯算法，它们使用用户输入的类标记数据来比较新数据并对其进行适当分类。

5. 聚类算法

聚类算法的重点是发现元素之间的共性并对它们进行相应的分组，常用的聚类算法是k-means聚类算法。在k-means中，分析人员选择簇数(以变量k表示)，并根据物理距离将元素分组为适当的聚类。

6. 深度学习和神经网络算法

人工神经网络算法基于生物神经网络的结构，深度学习采用神经网络模型并对其进行更新。它们是大、且极其复杂的神经网络，使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入，它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环，模仿人脑处理信息和建立逻辑连接的方式。此外，随着算法的运行，隐藏层往往变得更小、更细微。

其他算法

一旦你选择并运行了你的算法，还有一个非常重要的步骤：可视化和交流结果。虽然与算法编程的细节相比，这看起来既愚蠢又肤浅，但是良好的可视化是优秀数据科学家和伟大科学家的关键隔膜。如果没有人能够理解，那么惊人的洞察力又有什么用呢？

为什么机器学习很重要？

物联网
物联网（Internet of Things），或者说IOT，是指你家里和办公室里联网的物理设备。流行的物联网设备是智能灯泡，其销售额在过去几年里猛增。随着机器学习的进步，物联网设备比以往任何时候都更聪明、更复杂。机器学习有两个主要的与物联网相关的应用：使你的设备变得更好和收集你的数据。让设备变得更好是非常简单的：使用机器学习来个性化您的环境，比如，用面部识别软件来感知哪个是房间，并相应地调整温度和AC。收集数据更加简单，通过在你的家中保持网络连接的设备(如亚马逊回声)的通电和监听，像Amazon这样的公司收集关键的人口统计信息，将其传递给广告商，比如电视显示你正在观看的节目、你什么时候醒来或睡觉、有多少人住在你家。
聊天机器人
在过去的几年里，我们看到了聊天机器人的激增，成熟的语言处理算法每天都在改进它们。聊天机器人被公司用在他们自己的移动应用程序和第三方应用上，比如Slack，以提供比传统的(人类)代表更快、更高效的虚拟客户服务。
自动驾驶
我个人最喜欢的下一个大型机器学习项目是最远离广泛生产的项目之一。然而，目前有几家大型公司正在开发无人驾驶汽车，如雪佛兰、Uber和Tsla。这些汽车使用了通过机器学习实现导航、维护和安全程序的技术。一个例子是交通标志传感器，它使用监督学习算法来识别和解析交通标志，并将它们与一组标有标记的标准标志进行比较。这样，汽车就能看到停车标志，并认识到它实际上意味着停车，而不是转弯，单向或人行横道。

cleo_xl

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
什么是机器学习？

机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习：监督学习、非监督学习和强化学习，所有这些都有其特定的优点和缺点。监督学习涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。在分类中，机器被训...
复制链接

扫一扫