数据集的使用

最新推荐文章于 2024-08-22 13:53:18 发布

Self-Discipline

最新推荐文章于 2024-08-22 13:53:18 发布

阅读量5.7k

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/tianwei0822/article/details/86592324

版权

机器学习同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

机器学习

14 篇文章 1 订阅

订阅专栏

1.学习阶段可以用的数据集：
1）sklearn
2）kaggle
3）UCI
2 sklearn数据集
sklearn.datasets
load_* 获取小规模数据集
fetch_* 获取大规模数据集
2 sklearn小数据集
sklearn.datasets.load_iris()
3 sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
4 数据集的返回值
datasets.base.Bunch（继承自字典）
dict["key"] = values
bunch.key = values
3 数据集的划分
训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
测试集 20%~30%
sklearn.model_selection.train_test_split(arrays, *options)
返回值的顺序为：训练集特征值，测试集特征值，训练集目标值，测试集目标值
x_train, x_test, y_train, y_test

代码：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集：\n", iris)
    #print("查看数据集描述：\n", iris["DESCR"])
    print("查看数据集描述：\n", iris.DESCR)
    print("查看特征值的名字：\n", iris.feature_names)
    print("查看特征值：\n", iris.data, iris.data.shape)

    # 数据集划分
    # 返回值的顺序为 训练集特征值，测试集特征值，训练集目标值，测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("训练集的特征值：\n", x_train, x_train.shape)

    return None

if __name__ == "__main__":
    datasets_demo()