《机器学习Python实践》,第三章,第一个机器学习项目
以往目录:橘猫吃不胖:《机器学习Python实践》读书笔记-第一章zhuanlan.zhihu.com
书中介绍了一个标准的步骤:导入数据
这里使用的是鸢尾花数据集,sklearn中有,我们可以直接导入,省去了很多步骤sklearn.datasets.load_iris(*,return_X_y=False,as_frame=False)
返回结果就是一个数据集,但是包装过的,包含了很多内容
from sklearn.datasets import load_iris
data = load_iris()
data.feature_names
data.target_names
return_X_y:bool, default=False.
可以直接返回特征和目标变量
x,y = load_iris(return_X_y=True)
as_frame:bool, default=False
可以直接返回pandas的DataFrame
x,y = load_iris(return_X_y=True , as_frame=True)
概述数据
导入数据集之后,我们要了解下我们的数据都是什么
比如,我们有4个特征,都是数值型,共150条记录
x.info()
x.describe()
y.groupby(y.values).count()
数据可视化
简单了解数据之后,我们可以通过数据可视化的方式,更直观的理解数据
我们可以先单独观察每一个特征,然后观察特征与特征之间的关系
单特征,通常可以看箱线图和直方图
x.plot.box(subplots=True , layout=(2,2) , figsize=(8,8))
x.hist(figsize=(8,8))
多特征之间的关系,可以使用散点图矩阵
import pandas as pd
pd.plotting.scatter_matrix(x , figsize=(8,8))评估算法
实施预测
后面的这两步,再后面继续介绍,这里暂时先留空。
这一章,主要是,介绍了机器学习的常规步骤,从理解数据,到调试算法模型(后面总结)
第四章的话,关于python、pandas、matplotlib的,也跳过不记录了。