机器学习自学笔记（1）sklearn数据集的简单使用

最新推荐文章于 2023-09-22 15:29:21 发布

悠然;̀͒̏ۖ

最新推荐文章于 2023-09-22 15:29:21 发布

阅读量582

点赞数

分类专栏：机器学习自学笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44886056/article/details/106999959

版权

机器学习自学笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

sklearn简介

Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时，便可根据下图来选择相应的方法。Sklearn具有以下特点：

简单高效的数据挖掘和数据分析工具
让每个人能够在复杂环境中重复使用
建立NumPy、Scipy、MatPlotLib之上

安装

pip install sklearn

数据集简单使用

导入数据集

一般使用load_*l来导入小规模的数据集，使用fetch_*导入大规模数据集。
示例：

#导入小规模数据集---iris（鸢尾花数据集）
from sklearn.datasets import load_iris

数据集返回内容

database.base.Bunch(一个继承自字典的格式)
在这里插入图片描述
获取相应数据的方法：

	#方法一
    print("查看数据集描述：\n",iris["DESCR"])
    #方法二
    print("查看特征值的名字\n",iris.feature_names)

数据集的划分

通常我们获取到一整个数据集之后，不能全部都用来训练。我们通常使用其中的20%左右来进行模型效果的测试。
使用sklearn.model_selection.train_test_split可以进行划分
在这里插入图片描述
示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
    """
    sklean数据集使用
    :return:
    """
    #获取数据集
    iris= load_iris()
    print("鸢尾花数据集:\n",iris)
    print("查看数据集描述：\n",iris["DESCR"])
    print("查看特征值的名字\n",iris.feature_names)
    print("查看特征值\n",iris.data,iris.data.shape)

    #数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print("训练集的特征值：\n",x_train,x_train.shape)

    return None

if __name__ == '__main__':
    #sklean数据集使用
    datasets_demo();

悠然;̀͒̏ۖ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习自学笔记（1）sklearn数据集的简单使用

sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时，便可根据下图来选择相应的方法。Sklearn具有以下特点：简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy、Scipy、MatPlotLib之上安装pip i
复制链接

扫一扫

专栏目录