机器学习自学笔记(1)sklearn数据集的简单使用

sklearn简介

Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:

简单高效的数据挖掘和数据分析工具
让每个人能够在复杂环境中重复使用
建立NumPy、Scipy、MatPlotLib之上

安装

pip install sklearn

数据集简单使用

导入数据集

一般使用load_*l来导入小规模的数据集,使用fetch_*导入大规模数据集。
示例:

#导入小规模数据集---iris(鸢尾花数据集)
from sklearn.datasets import load_iris

数据集返回内容

database.base.Bunch(一个继承自字典的格式)
在这里插入图片描述
获取相应数据的方法:

	#方法一
    print("查看数据集描述:\n",iris["DESCR"])
    #方法二
    print("查看特征值的名字\n",iris.feature_names)

数据集的划分

通常我们获取到一整个数据集之后,不能全部都用来训练。我们通常使用其中的20%左右来进行模型效果的测试。
使用sklearn.model_selection.train_test_split可以进行划分
在这里插入图片描述
示例:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
    """
    sklean数据集使用
    :return:
    """
    #获取数据集
    iris= load_iris()
    print("鸢尾花数据集:\n",iris)
    print("查看数据集描述:\n",iris["DESCR"])
    print("查看特征值的名字\n",iris.feature_names)
    print("查看特征值\n",iris.data,iris.data.shape)

    #数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print("训练集的特征值:\n",x_train,x_train.shape)

    return None

if __name__ == '__main__':
    #sklean数据集使用
    datasets_demo();
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值