scikit-learn 是适用于数据处理和机器学习处理非常强大的库。提供数据降维、回归、聚类、分类等功能,是机器学习从业者的必备库之一。
示例一
案例:鸢尾属植物数据集(iris)分类。
鸢尾属植物数据集一共有 4 个特征,target 值有 3 类,每一类都有 50 个样本。
四维数据集为了在二维平面内展示方便,只选取其中两个维度。
如下所示,绘制出一对特征的数据分布矩阵图,点的颜色表示分类值。
矩阵图主对角线,两幅子图分表表示特征 sepallength、petallength 取值的概率分布图。
绘制下图的代码:
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="ticks")
df = sns.load_dataset("iris")
df02 = df.iloc[:,[0,2,4]] # 选择一对特征
print(df02)
sns.pairplot(df02, hue="species")
plt.show()
sepal_length petal_length species
0 5.1 1.4 setosa
1 4.9 1.4 setosa
2 4.7 1.3 setosa
3 4.6 1.5 setosa
4 5.0