未能将管道连接到虚拟机: 所有的管道范例都在使用中。_Scikit Learn 的提示和技巧将使您赞叹不已...

"学习不是偶然获得的,必须热心寻求并认真学习"-阿比盖尔·亚当斯(Abigail Adams)

beecd2ae2bfdaf8520a5fb9bbc80a6e2.png

> Unsplash by Anas Alshanti

我的同事们提出了很多问题,例如" sci-kit learn 中最常用的一些功能是什么,我们可以学会尽快开始构建数据科学项目",这迫使我思考:" 阅读帕累托原理还是什么?"。

我不能告诉您在此类库中学习一些特定功能,因为每个功能都有其用例和重要性。

在本文中,我将讨论sci-kit learn 库的一些技巧,这些技巧在与任何数据相关的项目中工作时都非常有用。

这是我们今天要讨论的内容:

· 将test_train_split()函数与stratify参数一起使用。

· 哪里不使用values()函数。

· SimpleImputer()函数。

· 管道中的特征选择。

· 结合使用K折叠和StratifiedKFold。

· 使用AUC进行分类。

· 监视管道步骤的四种方法。

· CountVectorizer()和make_column_transformer()。

· 处理Joblib function()。

1.将test_train_split()函数与stratify参数一起使用。

我们不能在回归和分类任务中将此函数与相同的参数一起使用。

在分类问题中,我们希望预测一些离散值,对吧? 我们还将意识到,output属性可能具有类不平衡性。 因此,在执行train_test_split操作时,不一定要在训练数据和测试数据中保留其类别比例。

为此,我们使用:分层参数,如下图所示。

范例:

2322ea2dd539866090f7c6f615dbbc5d.png

> Source: My image gallery

2.哪里不使用values()函数。

在将Series或任何DataFrame传递给sci-kit时,无需使用值函数,因为它知道如何访问基础的numpy数组。

范例:

5ae7f3b4c6c5c360340379ee5c72f397.png

> Source : My image gallery

3. SimpleImputer()函数

很多时候,在进行数据分析时,我们会遇到一些列或行会丢失标注为" nan"的标签。 为了处理此类问题,我们将nan值替换为column的平均值,并有时将其替换为最常用的单词。

对于所有这些任务,我们在sklearn中都有一个功能SimpleImput。

请参阅以下示例,以了解更多信息。

范例:

0a86133d7f1b29d1634607faa60621af.png

> Source: My image gallery

4.管道中的特征选择:

通过以下方法将特征选择添加到管道非常容易:

· 通过使用SelectPercentile函数来保持最高评分功能。

· 在预处理之后但在模型构建之前添加特征选择。

范例:

9598c51f963a6d395247222361602fa5.png

> Source: My image gallery

5.将K-fold和StratifiedKFold与shuffle一起使用。

如果我们正在考虑使用交叉验证,并且我们的数据集不是按任意顺序排列,则可以使用改组获得更好的结果。 有关此处的改组的更多信息。

范例:

63473b9caaa6fee59927233a27517643.png

> Source: My image gallery

6.使用AUC进行分类

如果我们正在执行类别不平衡的二进制分类,则AUC可以成为一种有效的评估指标。

参见示例:

a7443ed29d2966dcad86b2e6bd68dec2.png

> Source: My image gallery

6.监视管道步骤的四种方法。

有四种方法可以监视机器学习管道的各个步骤。 请参阅以下示例,以了解更多信息。

范例:

a77f084dba4573dc1f108a4062eed502.png

> Source: My image gallery

8. CountVectorizer()和make_column_transformer()

如果我们要向量化两个文本列并一次将它们连接起来,请执行以下步骤。

范例:

eb256748de92dd71a8ea8c4421613407.png

> Source: My image gallery

9.处理Joblib function():

为了通过将我们的机器学习模型嵌入到任何实时Web应用程序中来部署它,或者为了保存模型供以后使用,我们使用sklearn中可用的joblib函数。

请参见以下示例:

aa56f46c6f85f7ac692d256b933a87b3.png

> Source: My image gallery

我们出发之前

这就是本文的全部内容。 我敢肯定,今天你们所有人都会学到sci-kit学习库的一些新功能。 我没有包括第十和其他内容,因为我将在下一篇文章中对其进行描述。

在此之前,我需要了解您对本文是否有用的答复。 请在下面的评论部分中做评论,并让我知道是否遗漏了一些东西,以便在下一篇文章中进行更正。

请务必跟随Kevin Markham先生,因为他经常发布此类提示和技巧。

谢谢。

(本文翻译自Shobhit Srivastava的文章《Tips and tricks of Sci-kit learn that will amaze you!》,参考:https://towardsdatascience.com/tips-and-tricks-of-sci-kit-learn-that-will-amaze-you-ce791431552e)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值