08机器学习——sklearn数据集
1.数据集的划分
数据分为训练集和测试集,一般训练集占大部分
训练集的目的就是为了建立模型,测试集用来评估模型,针对不同的算法评估的标准是不一样的
2.sklearn数据集接口介绍
3.sklearn分类数据集
from sklearn.datasets import load_iris
li=load_iris()
print('获取特征值')
print(li.data)
print('目标值')
print(li.target)
结果:
四列特征值,每一个值代表一个样本
目标值中,前面50个都是0这个类别,中间50个都是1这个类别,最后50个都是2这个类别
打印它的描述
print(li.DESCR)
其中:
Attribute Information里面的内容表示,四个特征的含义是什么(这里就是花的一些特征)
class表示花的类别,这里有三种花的类别
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li=load_iris()
#注意返回值,训练集 train, x_train(训练集里面的特征值) y_train(训练集里面的目标值),测试集 test, x_test(测试集里面的特征值),y_test(测试集里面的目标值)
#先都是特征值,再都是目标值(固定顺序)
x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
print('训练集特征值和目标值:',x_train,y_train)
print('测试集特征值和目标值:',x_test,y_test)
结果:
其实就是把样本的一部分当作测试集,并且是乱序的
获取新闻数据集
from sklearn.datasets import load_iris,fetch_20newsgroups
li=load_iris()
news=fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
4.sklearn回归数据集
from sklearn.datasets import load_iris,fetch_20newsgroups,load_boston
lb=load_boston()
print('获取特征值')
print(lb.data)
print('目标值')
print(lb.target)
print(lb.DESCR)
结果:
目标值是一个个连续型的值
还有许多属性等等