Scikit-Learn 简介
Scikit-Learn 数据表布局
机器学习是从数据创建模型的学问,因此你首先需要了解怎样表示数据才能让计算机理解。Scikit-Learn 认为数据表示最好的方法就是用数据表的形式。
示例:
Scikit-Learn的评估器API
主要遵照的设计原则:
-
统一性:所有对象使用共同接口连接一组方法和统一的文档。
-
内省:所有参数值都是公共属性。
-
限制对象层级:只有算法可以用 Python 类表示。数据集都用标准数据类型(NumPy 数组、Pandas DataFrame、SciPy 稀疏矩阵)表示,参数名称用标准的 Python 字符串。
-
函数组合:许多机器学习任务都可以用一串基本算法实现,Scikit-Learn 尽力支持这种可能。
-
明智的默认值:当模型需要用户设置参数时,Scikit-Learn 预先定义适当的默认值
Scikit-Learn 中的所有机器学习算法都是通过评估器 API 实现的,它为各种机器学习应用提供了统一的接口。
模型超参数与验证
背景: