python-机器学习常见数据集之wave,iris,wine,boston,虚拟数据集，及数据划分方法

最新推荐文章于 2024-06-23 10:33:23 发布

Murrays

最新推荐文章于 2024-06-23 10:33:23 发布

阅读量1.2k

点赞数 20

文章标签： python 机器学习

本文链接：https://blog.csdn.net/m0_65485230/article/details/135304174

版权

1.4.2数据展示，含有多个特征，划分为三类0，1，2编辑

1 数据集介绍

1.1wave数据集

1.1.1数据准备

n_samples为数据数目

import mglearn

X,y=mglearn.datasets.make_wave(n_samples=10)

print(X,y)

1.1.2数据展示

1.2鸢尾花数据集

1.2.1数据准备

from sklearn.datasets import load_iris

iris=load_iris()
x=iris.data
y=iris.target
feature=iris.feature_names

print(x,'\n',y,'\n',feature)

1.2.2数据展示，鸢尾花有四个特征

1.3波士顿房价数据集

1.3.1数据导入

import numpy as np
import pandas as pd

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep=r"\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

print(data,'\n',target)

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

from sklearn.datasets import load_wine

wine=load_wine()
wine_data=wine.data
wine_target=wine.target
wine_feature=wine.feature_names

print(wine_data,wine_target,wine_feature)

1.4.2数据展示，含有多个特征，划分为三类0，1，2

1.5创建虚拟数据集

1.5.1数据

from sklearn.datasets import make_blobs

#n_samples为数据数目，n_features=数据特征数目，centers数据类别，random_state随机种子控制随机过程
x,y = make_blobs(n_samples= 10,n_features= 2, centers= 4, random_state= 1)

print(x,'\n',y)

1.5.2数据展示

2 数据划分

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=20)

在train_test_split函数内

其中x,y,分别为我们导入的数据的特征和数值（类别）

test_size=0.2，表示x_test，和y_test，测试数据占比0.2

Murrays

关注

20
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
python-机器学习常见数据集之wave,iris,wine,boston,虚拟数据集，及数据划分方法

机器学习，数据集，数据划分
复制链接

扫一扫

python-机器学习常见数据集之wave,iris,wine,boston,虚拟数据集，及数据划分方法

1 数据集介绍

1.1wave数据集

1.1.1数据准备

1.1.2数据展示

1.2鸢尾花数据集

1.2.1数据准备

1.2.2数据展示，鸢尾花有四个特征

1.3波士顿房价数据集

1.3.1数据导入

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

1.4.2数据展示 ，含有多个特征，划分为三类0，1，2

1.5创建虚拟数据集

1.5.1数据

1.5.2数据展示

2 数据划分

1.4.2数据展示，含有多个特征，划分为三类0，1，2