python第三章上机实践_《机器学习Python实践》读书笔记-第三章

《机器学习Python实践》,第三章,第一个机器学习项目

以往目录:橘猫吃不胖:《机器学习Python实践》读书笔记-第一章​zhuanlan.zhihu.com

书中介绍了一个标准的步骤:导入数据

这里使用的是鸢尾花数据集,sklearn中有,我们可以直接导入,省去了很多步骤sklearn.datasets.load_iris(*,return_X_y=False,as_frame=False)

返回结果就是一个数据集,但是包装过的,包含了很多内容

from sklearn.datasets import load_iris

data = load_iris()

data.feature_names

data.target_names

return_X_y:bool, default=False.

可以直接返回特征和目标变量

x,y = load_iris(return_X_y=True)

as_frame:bool, default=False

可以直接返回pandas的DataFrame

x,y = load_iris(return_X_y=True , as_frame=True)

概述数据

导入数据集之后,我们要了解下我们的数据都是什么

比如,我们有4个特征,都是数值型,共150条记录

x.info()

x.describe()

y.groupby(y.values).count()

数据可视化

简单了解数据之后,我们可以通过数据可视化的方式,更直观的理解数据

我们可以先单独观察每一个特征,然后观察特征与特征之间的关系

单特征,通常可以看箱线图和直方图

x.plot.box(subplots=True , layout=(2,2) , figsize=(8,8))

x.hist(figsize=(8,8))

多特征之间的关系,可以使用散点图矩阵

import pandas as pd

pd.plotting.scatter_matrix(x , figsize=(8,8))评估算法

实施预测

后面的这两步,再后面继续介绍,这里暂时先留空。

这一章,主要是,介绍了机器学习的常规步骤,从理解数据,到调试算法模型(后面总结)

第四章的话,关于python、pandas、matplotlib的,也跳过不记录了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值