未能将管道连接到虚拟机: 所有的管道范例都在使用中。_Scikit Learn 的提示和技巧将使您赞叹不已...

最新推荐文章于 2024-04-26 19:31:41 发布

weixin_39861255

最新推荐文章于 2024-04-26 19:31:41 发布

阅读量239

点赞数

文章标签：未能将管道连接到虚拟机: 所有的管道范例都在使用中。

"学习不是偶然获得的，必须热心寻求并认真学习"-阿比盖尔·亚当斯(Abigail Adams)

> Unsplash by Anas Alshanti

我的同事们提出了很多问题，例如" sci-kit learn 中最常用的一些功能是什么，我们可以学会尽快开始构建数据科学项目"，这迫使我思考：" 阅读帕累托原理还是什么？"。

我不能告诉您在此类库中学习一些特定功能，因为每个功能都有其用例和重要性。

在本文中，我将讨论sci-kit learn 库的一些技巧，这些技巧在与任何数据相关的项目中工作时都非常有用。

这是我们今天要讨论的内容：

· 将test_train_split()函数与stratify参数一起使用。

· 哪里不使用values()函数。

· SimpleImputer()函数。

· 管道中的特征选择。

· 结合使用K折叠和StratifiedKFold。

· 使用AUC进行分类。

· 监视管道步骤的四种方法。

· CountVectorizer()和make_column_transformer()。

· 处理Joblib function()。

1.将test_train_split()函数与stratify参数一起使用。

我们不能在回归和分类任务中将此函数与相同的参数一起使用。

在分类问题中，我们希望预测一些离散值，对吧？我们还将意识到，output属性可能具有类不平衡性。因此，在执行train_test_split操作时，不一定要在训练数据和测试数据中保留其类别比例。

为此，我们使用：分层参数，如下图所示。

范例：

> Source: My image gallery

2.哪里不使用values()函数。

在将Series或任何DataFrame传递给sci-kit时，无需使用值函数，因为它知道如何访问基础的numpy数组。

范例：

> Source : My image gallery

3. SimpleImputer()函数

很多时候，在进行数据分析时，我们会遇到一些列或行会丢失标注为" nan"的标签。为了处理此类问题，我们将nan值替换为column的平均值，并有时将其替换为最常用的单词。

对于所有这些任务，我们在sklearn中都有一个功能SimpleImput。

请参阅以下示例，以了解更多信息。

范例：

> Source: My image gallery

4.管道中的特征选择：

通过以下方法将特征选择添加到管道非常容易：

· 通过使用SelectPercentile函数来保持最高评分功能。

· 在预处理之后但在模型构建之前添加特征选择。

范例：

> Source: My image gallery

5.将K-fold和StratifiedKFold与shuffle一起使用。

如果我们正在考虑使用交叉验证，并且我们的数据集不是按任意顺序排列，则可以使用改组获得更好的结果。有关此处的改组的更多信息。

范例：

> Source: My image gallery

6.使用AUC进行分类

如果我们正在执行类别不平衡的二进制分类，则AUC可以成为一种有效的评估指标。

参见示例：

> Source: My image gallery

6.监视管道步骤的四种方法。

有四种方法可以监视机器学习管道的各个步骤。请参阅以下示例，以了解更多信息。

范例：

> Source: My image gallery

8. CountVectorizer()和make_column_transformer()

如果我们要向量化两个文本列并一次将它们连接起来，请执行以下步骤。

范例：

> Source: My image gallery

9.处理Joblib function()：

为了通过将我们的机器学习模型嵌入到任何实时Web应用程序中来部署它，或者为了保存模型供以后使用，我们使用sklearn中可用的joblib函数。

请参见以下示例：

> Source: My image gallery

我们出发之前

这就是本文的全部内容。我敢肯定，今天你们所有人都会学到sci-kit学习库的一些新功能。我没有包括第十和其他内容，因为我将在下一篇文章中对其进行描述。

在此之前，我需要了解您对本文是否有用的答复。请在下面的评论部分中做评论，并让我知道是否遗漏了一些东西，以便在下一篇文章中进行更正。

请务必跟随Kevin Markham先生，因为他经常发布此类提示和技巧。

谢谢。

(本文翻译自Shobhit Srivastava的文章《Tips and tricks of Sci-kit learn that will amaze you!》，参考：https://towardsdatascience.com/tips-and-tricks-of-sci-kit-learn-that-will-amaze-you-ce791431552e)

weixin_39861255

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
未能将管道连接到虚拟机: 所有的管道范例都在使用中。_Scikit Learn 的提示和技巧将使您赞叹不已...

"学习不是偶然获得的，必须热心寻求并认真学习"-阿比盖尔·亚当斯(Abigail Adams)> Unsplash by Anas Alshanti我的同事们提出了很多问题，例如" sci-kit learn 中最常用的一些功能是什么，我们可以学会尽快开始构建数据科学项目"，这迫使我思考：" 阅读帕累托原理还是什么？"。我不能告诉您在此类库中学习一些特定功能，因为每个功能都有其用例和重要性。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。