三、机器学习基础知识:Python常用机器学习库(SKlearn)

1、Scikit learn简介

Scikit learn 的简称是 SKlearn,专门提供了 Python 中实现机器学习的模块。Sklearn 是一个简单高效的数据分析算法工具,建立在 NumPy、SciPy和 Matplotlib 的基础上。SKlearn 包含许多目前最常见的机器学习算法,例如分类、回归、聚类、数据降维,数据预处理等,每个算法都有详细的说明文档。
对于大多数机器学习,通常有以下四个数据集。

  1. train_ data.训练数据集。
  2. train target:训练数据的真实结果集。
  3. test_data:测试数据集。
  4. test_ target:测试数据集所对应的真实结果,用来检测预测的正确性。

用各算法解决问题时,也大都有两个共同的核心两数:训练函数fit()和测试函数predict()。

2、主要步骤

Sklearn针对机器学习的过程,提供了一个一般步骤,该步骤主要过程如下:

  1. 获取数据,创建数据集。在Sklearn中提供了很多经典的数据集可以直接使用,通过Sklearn的datasets模块来使用里面的相关数据集,包括经典的鸢尾花数据集、波士顿房价数据集等。
  2. 数据预处理。这一步骤专门针对数据进行预处理,使数据能够有效地被模型或者评估器识别。
  3. 数据集拆分。该步骤主要将数据集拆分为训练数据集与验证数据集,训练集用于训练模型,验证集用于验证模型性能。
  4. 训练模型。针对需要处理的问题,选择适当的模型并进行定义,同时使用训练数据集对定义好的模型进行训练。
  5. 性能评估。使用相关的评估标准对训练好的模型性能进行评估。

3、数据预处理

在Sklearn的datasets模块提供了一些常见的数据集。

数据集 描述
datasets.fetch_california_housing 加利福尼亚住房数据集
datasets.fetch_lfw_people 有标签的人脸数据集
datasets.load_boston 波士顿房价数据集
datasets.load_breast_cancer 乳腺癌数据集
datasets.load_diabetes 糖尿病数据集
datasets.load_iris 鸢尾花数据集
datasets.load_wine 葡萄酒数据集

鸢尾花数据集的加载:

from sklearn.datasets import load_iris
import pandas as pd
iris_data = load_iris()
x=pd.DataFrame(iris_data.data)
print(x)   #输出鸢尾花数据集每条数据包含的属性数据值
y=iris_data.target
print(y)  #输出鸢尾花数据集的类别标签

在这里插入图片描述

葡萄酒数据集的加载:

from sklearn.datasets import load_wine
import pandas as pd
wine_data = load_wine()
x=pd.DataFrame
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七层楼的疯子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值