如果不想你被称做掉包侠，那么请有效地学习机器学习算法知识

最新推荐文章于 2023-01-08 20:38:01 发布

The_syx

最新推荐文章于 2023-01-08 20:38:01 发布

阅读量550

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/The_syx/article/details/110307953

版权

机器学习远远超出了sklearn中简单的fit和predict方法。

背景：

现在大家都习惯说掉包侠这个词，尤其是人工智能领域。我的一个朋友就嘲笑我，说：“你这么久学会了什么？只是几个模型，我一周就学会了。” 那是他的原话。我只是对他微笑，并询问他学到了什么。他告诉了几种机器学习算法的名称。我问他确切地学到了什么，然后得出了使用Sklearn的拟合（fit）和预测（predict）方法的明显答复，并简要概述了该算法的工作原理。

我脸上露出邪恶的笑容，我问他要如何获得最佳参数？模型如何学习最佳权重？当我们有低延迟要求时我们该怎么办？尽管这些问题并不复杂，但他坐在那里静静地看着我的脸，我笑到了最后。

从故事中得出的结论是，机器学习远远超出了简单的拟合和预测方法。

我们大多数人只是在bi站上观看了一些视频，并声称我们了解机器学习，只是很快就意识到了我们的错误。对于所有自学的人来说， 请记住，有成千上万的人像您和我一样学习机器学习/数据科学。请记住，我们将与拥有硕士/博士学位的人竞争。在与数据科学相关的领域。因此，要与他们竞争，我们必须在基础方面真正扎实。

围绕机器学习的话题很多，新的课程每天都在涌现，目前有比实际工作更多的课程。拥有如此庞大的资源，就出现了选择正确路线的难题。

坦白地说，这些课程大多数都是平庸的（比如某些营销号中的广告），因此不会深入探讨。嗯，那里没有好课程，但是每门课程都提供不同的课程。很少涉及数学部分，很少擅长于写代码部分等等。因此，今天我不会特别提及任何课程。我将分享我在故事中向同一个朋友提出并建议的方法。我相信它也可以帮助您进行数据科学之旅。

在我们进入算法部分之前，让我告诉您在机器学习项目中确切地在哪里使用它们。完成机器学习项目涉及多个阶段，每个阶段都同样重要。

建模是我们的机器学习算法进入的阶段，它只是机器学习生命周期中的重要阶段之一。

好吧，让我们深入研究机器学习算法的主要主题。

对于每种算法，我们需要注意一些重要的事情。

1.算法的背后的思想（或者说内涵）是什么？

最初，我曾经学习过一种算法，并且过了一段时间就忘记了，每当我回来修改它时，我都会发现很难理解当时我已经学到的算法。随着时间的流逝，我意识到，如果人类太过理论化，我们将无法真正记住它们；如果通过可视化来学习它，我们很可能会长时间记住它。这就是几何帮助我们以最简单的方式可视化算法核心的地方。如果我们对这些算法有一些很酷的现实生活例子，那么我们更倾向于更深入地理解它。

一旦从任意选择的课程中学习了算法，就打开一个新选项卡，然后开始搜索该算法的相关内容。相信我，互联网上有很多很酷的解释。对于初学者来说，CSDN和知乎是最好的起点。

2.算法如何工作？

一旦了解了它的直觉，请尝试一下并尝试观察算法的实际工作原理。您需要检查的另一件事是该算法如何处理各种形式的数据，例如文本/类别/数字。

在此阶段中，尝试多种因素并查看算法的工作原理，您可以参考Scikit-Learn提供的现有算法。检查算法的参数，然后尝试使用它们，看看它们如何影响模型的性能。

3.在哪里可以使用/在哪里不能使用？

这是大多数人经常错过的最重要因素，而他们更多地关注其作用和工作方式。深入了解该算法非常重要，它为何有效或为何无效。

尝试实验并了解它如何处理大型数据集和高维数据。如果容易出现异常值或数据集不平衡。

在面试中，最棘手的问题不是什么（what）和如何（who），而是为什么（why）。 假设明天您在学习算法后创建了一个个人项目，并且使用了特定的X算法来解决它，那么面试官最有可能问：为什么你要用X算法为什么不用Y算法？换句话说， 为什么您认为X算法比其他方法更有效？

好家伙！这就是为什么您应该知道它在哪里起作用以及在哪里不起作用的原因。

例如，您需要提出类似这样的答复：由于我们的数据是高维的，并且本质上是非线性的，因此由于种种原因，算法X倾向于比Y更好地处理非线性数据。

4.为什么算法的可解释性很重要

这是关键步骤之一，之所以如此重要，是因为作为数据科学家，您可能需要向可能完全没有技术知识的客户展示模型。在此期间，您可能需要说服他们他们的模型正在预测正确的结果，并且需要提供一些很好的理由让他们适应。您根本无法对它们施加准确性。如果您的算法是可解释的，那么您可以向他们展示模型预测的原因。可解释性只不过意味着算法的功能重要性。

例如：如果您正在从事医疗保健项目，则您的模型可以预测一个人的疾病为阳性/阴性。这是一个非常敏感的问题，他们无法承担可解释性出现时的错误。如果您的模型向您显示了（因为X特征（体内某些水平）大于x值之类的原因），作为积极/消极的人，这将变得更加容易和有意义。

5.为什么要学习算法的时间/空间复杂性？

当我们进行实时工作时，我们可能必须处理大量数据，并且如果需要低延迟，那么时空复杂度可以帮助您选择正确的算法。

如果您的模型占用更多内存，那么实时运行它会非常昂贵，尤其是当您使用云基础架构来运行模型时。有时，一些业务问题会带来较低的延迟要求，其中有些算法提供了较高的准确性，但由于其时间/空间复杂度的限制而无法满足要求。

百度，CSDN，博客园，知乎，简书是获取每种算法的所有这些相关信息的好资源。

6.为什么我们需要了解算法背后的数学原理？

再次提到数学？是的，是的，我明白了。即使不了解数学，我们也可以使用算法，只需从Sklearn这个库中导入即可，但是从长远来看，不建议这样做。（这就是很多人被称为掉包侠的原因，只会调用库函数）好吧，无论我们是否接受，我们绝对都需要数学以更好地了解汽车引擎盖下的实际情况。这可能会让一些人失望，但我得到一个好消息，我们无法避免使用数学运算，但可以简化它并避免进行严格的数学运算。