08机器学习——sklearn数据集

最新推荐文章于 2024-04-17 09:12:26 发布

Amelia0312

最新推荐文章于 2024-04-17 09:12:26 发布

阅读量219

点赞数

分类专栏：机器学习文章标签：机器学习 python 大数据

本文链接：https://blog.csdn.net/qq_43541420/article/details/108299831

版权

机器学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

08机器学习——sklearn数据集

1.数据集的划分
数据分为训练集和测试集，一般训练集占大部分
在这里插入图片描述训练集的目的就是为了建立模型，测试集用来评估模型，针对不同的算法评估的标准是不一样的

2.sklearn数据集接口介绍
在这里插入图片描述

3.sklearn分类数据集
在这里插入图片描述

from sklearn.datasets import load_iris
li=load_iris()
print('获取特征值')
print(li.data)
print('目标值')
print(li.target)

结果：
在这里插入图片描述

在这里插入图片描述

四列特征值，每一个值代表一个样本
目标值中，前面50个都是0这个类别，中间50个都是1这个类别，最后50个都是2这个类别

打印它的描述

print(li.DESCR)

其中：
在这里插入图片描述
Attribute Information里面的内容表示，四个特征的含义是什么（这里就是花的一些特征）

在这里插入图片描述
class表示花的类别，这里有三种花的类别

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li=load_iris()
#注意返回值，训练集 train, x_train（训练集里面的特征值） y_train（训练集里面的目标值）,测试集 test, x_test（测试集里面的特征值）,y_test（测试集里面的目标值）
#先都是特征值，再都是目标值（固定顺序）
x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
print('训练集特征值和目标值:',x_train,y_train)
print('测试集特征值和目标值:',x_test,y_test)

结果：
在这里插入图片描述

其实就是把样本的一部分当作测试集，并且是乱序的

获取新闻数据集

在这里插入图片描述

from sklearn.datasets import load_iris,fetch_20newsgroups
li=load_iris()
news=fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)

4.sklearn回归数据集

在这里插入图片描述

from sklearn.datasets import load_iris,fetch_20newsgroups,load_boston
lb=load_boston()
print('获取特征值')
print(lb.data)
print('目标值')
print(lb.target)
print(lb.DESCR)

结果：
在这里插入图片描述

目标值是一个个连续型的值

还有许多属性等等

Amelia0312

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
08机器学习——sklearn数据集

08机器学习——sklearn数据集1.数据集的划分数据分为训练集和测试集，一般训练集占大部分训练集的目的就是为了建立模型，测试集用来评估模型，针对不同的算法评估的标准是不一样的2.sklearn数据集接口介绍3.sklearn分类数据集from sklearn.datasets import load_irisli=load_iris()print('获取特征值')print(li.data)print('目标值')print(li.target)结果：四列特征值，
复制链接

扫一扫

专栏目录