030. (8.4-8.5)Scikit-Learn 简介

本文介绍了Scikit-Learn的数据表布局,强调了评估器API的一致性和内省性。讨论了模型超参数的重要性和验证方法,如留出集和交叉验证,并展示了如何通过验证曲线和学习曲线选择最优模型。此外,还涵盖了特征工程,包括向量化、处理分类和文本特征,以及处理缺失值和使用管道进行流程整合。
摘要由CSDN通过智能技术生成

Scikit-Learn 数据表布局

机器学习是从数据创建模型的学问,因此你首先需要了解怎样表示数据才能让计算机理解。Scikit-Learn 认为数据表示最好的方法就是用数据表的形式。

示例:
在这里插入图片描述

Scikit-Learn的评估器API

主要遵照的设计原则:

  • 统一性:所有对象使用共同接口连接一组方法和统一的文档。

  • 内省:所有参数值都是公共属性。

  • 限制对象层级:只有算法可以用 Python 类表示。数据集都用标准数据类型(NumPy 数组、Pandas DataFrame、SciPy 稀疏矩阵)表示,参数名称用标准的 Python 字符串。

  • 函数组合:许多机器学习任务都可以用一串基本算法实现,Scikit-Learn 尽力支持这种可能。

  • 明智的默认值:当模型需要用户设置参数时,Scikit-Learn 预先定义适当的默认值

Scikit-Learn 中的所有机器学习算法都是通过评估器 API 实现的,它为各种机器学习应用提供了统一的接口

模型超参数与验证

背景:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值