python-机器学习常见数据集之wave,iris,wine,boston,虚拟数据集,及数据划分方法

目录

1 数据集介绍

1.1wave数据集

1.1.1数据准备

1.1.2数据展示 

1.2鸢尾花数据集

1.2.1数据准备 

1.2.2数据展示,鸢尾花有四个特征

​编辑 1.3波士顿房价数据集

1.3.1数据导入 

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

1.4.2数据展示  ,含有多个特征,划分为三类0,1,2​编辑

1.5创建虚拟数据集

1.5.1数据

1.5.2数据展示 

2 数据划分 

1 数据集介绍

1.1wave数据集

1.1.1数据准备

n_samples为数据数目

import mglearn

X,y=mglearn.datasets.make_wave(n_samples=10)

print(X,y)

1.1.2数据展示 

1.2鸢尾花数据集

1.2.1数据准备 

 

from sklearn.datasets import load_iris

iris=load_iris()
x=iris.data
y=iris.target
feature=iris.feature_names

print(x,'\n',y,'\n',feature)

1.2.2数据展示,鸢尾花有四个特征

 1.3波士顿房价数据集

1.3.1数据导入 

import numpy as np
import pandas as pd

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep=r"\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

print(data,'\n',target)

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

from sklearn.datasets import load_wine

wine=load_wine()
wine_data=wine.data
wine_target=wine.target
wine_feature=wine.feature_names

print(wine_data,wine_target,wine_feature) 

1.4.2数据展示  ,含有多个特征,划分为三类0,1,2

1.5创建虚拟数据集

1.5.1数据

from sklearn.datasets import make_blobs

#n_samples为数据数目,n_features=数据特征数目,centers数据类别,random_state随机种子控制随机过程
x,y = make_blobs(n_samples= 10,n_features= 2, centers= 4, random_state= 1)

print(x,'\n',y)

1.5.2数据展示 

 

2 数据划分 

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=20)

在train_test_split函数内

其中x,y,分别为我们导入的数据的特征和数值(类别)

test_size=0.2,表示x_test,和y_test,测试数据占比0.2

  • 20
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Murrays

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值