08机器学习——sklearn数据集

08机器学习——sklearn数据集

1.数据集的划分
数据分为训练集和测试集,一般训练集占大部分
在这里插入图片描述训练集的目的就是为了建立模型,测试集用来评估模型,针对不同的算法评估的标准是不一样的
在这里插入图片描述
在这里插入图片描述

2.sklearn数据集接口介绍
在这里插入图片描述
在这里插入图片描述

3.sklearn分类数据集
在这里插入图片描述

from sklearn.datasets import load_iris
li=load_iris()
print('获取特征值')
print(li.data)
print('目标值')
print(li.target)

结果:
在这里插入图片描述

在这里插入图片描述

四列特征值,每一个值代表一个样本
目标值中,前面50个都是0这个类别,中间50个都是1这个类别,最后50个都是2这个类别

打印它的描述

print(li.DESCR)

其中:
在这里插入图片描述
Attribute Information里面的内容表示,四个特征的含义是什么(这里就是花的一些特征)

在这里插入图片描述
class表示花的类别,这里有三种花的类别
在这里插入图片描述

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li=load_iris()
#注意返回值,训练集 train, x_train(训练集里面的特征值) y_train(训练集里面的目标值),测试集 test, x_test(测试集里面的特征值),y_test(测试集里面的目标值)
#先都是特征值,再都是目标值(固定顺序)
x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
print('训练集特征值和目标值:',x_train,y_train)
print('测试集特征值和目标值:',x_test,y_test)

结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其实就是把样本的一部分当作测试集,并且是乱序的

获取新闻数据集

在这里插入图片描述

from sklearn.datasets import load_iris,fetch_20newsgroups
li=load_iris()
news=fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)

4.sklearn回归数据集

在这里插入图片描述

from sklearn.datasets import load_iris,fetch_20newsgroups,load_boston
lb=load_boston()
print('获取特征值')
print(lb.data)
print('目标值')
print(lb.target)
print(lb.DESCR)

结果:
在这里插入图片描述
在这里插入图片描述
目标值是一个个连续型的值
在这里插入图片描述
还有许多属性等等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值