作为机器学习工具的
sklearn
,它主要作用是构建模型和评估。其主要的模型分为聚类、分类、回归等,而没有模型也有适应不同场景的多个算法。接下来我们从这几点进行简要总结。
1、聚类模型
聚类的输入是一组未被标记(所谓
target
值或
lable
)的样本,聚类根据数据自身的距离或相似度将它们划分为若干组。划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。sklearn提供的各种聚类方法有如下图所示:
聚类算法的实现需要
sklearn
的估计器(
Estimator
),估计其拥有
fit
和
predict
两个方法。以
iris
数据为例,使用
sklearn
估计器构建
K-Means
聚类模型,其实例如下代码所示:
1.1 构建聚类模型代码
from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
iris = load_iris()
iris_data = iris['data'] ##提取数据集中的特征
iris_target = iris['target'] ## 提取数据集中的标签</