02_机器学习流程_数据获取

最新推荐文章于 2023-02-18 11:33:45 发布

魏大明白

最新推荐文章于 2023-02-18 11:33:45 发布

阅读量543

点赞数

分类专栏：机器学习复习之路文章标签：机器学习

本文链接：https://blog.csdn.net/qq_37747189/article/details/115611472

版权

机器学习复习之路专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习流程_数据的获取

这一节回顾机器学习的数据获取流程。

1.数据集的构成

机器学习的数据通常不是数据库，而是文件csv，由于mysql存在性能瓶颈，读取速度不能满足要求，且格式不符合机器学习数据格式要求。

1.1可用数据集

数据集网址：
kaggle网址：（还有比赛）
美国大学协会uci网址：
scikit_learn网址：在这里插入图片描述

1.2 常用数据集结构

在这里插入图片描述

1.3 数据集的划分

机器学习一般的数据集会划分为两个部分：训练数据（用于训练，构建模型）、测试数据（在模型检验中使用，用于评估模型是否有效）

在这里插入图片描述

# sklearn数据集划分API
sklearn.model_selection.train_text_split
sklearn.datasets
# 加载获取流行数据集
datasets.load_*() # 此方法获取小规模数据集，数据包含在datasets里
datasets.fetch_*(data_home = None) # 获取大规模数据集，需要从网络上下载
# 函数的第一个参数是data_home表明数据集的下载目录，默认为~/scikit_learn_data/

在这里插入图片描述

2.转化器和估计器

转换器负责实现特征工程，估计器实现算法。
在这里插入图片描述

魏大明白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
02_机器学习流程_数据获取

机器学习流程_数据的获取这一节回顾机器学习的数据获取流程。1.数据集的构成机器学习的数据通常不是数据库，而是文件csv，由于mysql存在性能瓶颈，读取速度不能满足要求，且格式不符合机器学习数据格式要求。1.1可用数据集数据集网址：kaggle网址：（还有比赛）美国大学协会uci网址：scikit_learn网址：1.2 常用数据集结构1.3 数据集的划分机器学习一般的数据集会划分为两个部分：训练数据（用于训练，构建模型）、测试数据（在模型检验中使用，用于评估模型是否有效）# s
复制链接

扫一扫