ML学习笔记-2021-08-23-sklearn数据集使用

最新推荐文章于 2022-06-06 10:13:17 发布

燥栋

最新推荐文章于 2022-06-06 10:13:17 发布

阅读量84

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/qq_45363979/article/details/119864616

版权

ML 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1. 监督学习和无监督学习

监督学习：

输入为特征值+目标值，输出若为离散值则为分类问题，若为连续纸则为回归问题。

分类：K-近邻算法，贝叶斯算法，决策树，随机森林，逻辑回归
回归：线性回归，岭回归

无监督学习

输入为特征值

聚类：K-means

2. 数据集

数据集获取：sklearn kaggle uci

sklearn中的数据类型：Bunch
Bunch和字典结构类似，也是由键值对组成，和字典区别：其键值可以被实例对象当作属性使用。

from sklearn import datasets
from sklearn.model_selection import train_test_split

def sklearn_dataset():
    iris = datasets.load_iris()

    print("特征值名字:", iris.feature_names)
    print("特征值,和shape", iris.data, iris.data.shape)

    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    Bunch = datasets.base.Bunch  # 字典类型
    Bunch.iris = iris['data']
    print("\n", Bunch.iris)
    return None