深度之眼Kaggle比赛实战项目记录—6—第二周第一节构建baseline

最新推荐文章于 2023-02-07 17:41:51 发布

Robin_Pi

最新推荐文章于 2023-02-07 17:41:51 发布

阅读量321

点赞数

分类专栏：网课学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Robin_Pi/article/details/103867106

版权

网课学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

任务

学习时长：1/6——1/7

任务名称：构建baseline

任务简介：完成一个基本的baseline提交到kaggle上然后有成绩

详细说明：

本节将会向大家介绍利用python数据清洗和数据预处理以及模型的构建，拟合数据，进行对test数据集进行预测，提交到成绩有排名。会先从理论讲起，再到实际的的一个操作。

数据清洗和数据处理是比赛以及任何一种机器学习模型的必须要经过的过程，而且极为重要，这里只是给大家介绍一下数据清洗的几种常见的知识，包括可以利用pandas和sklearn库来进行，对数据的空值的填充，以及数据归一化，独热编码，标签编码等数据处理方面的问题，以及模型的构建问题，如何进行训练以及这个预测提交的问题。在这个过程中可能有很多同学对于很多知识不是很熟悉，那么就需要自己多多面向谷歌或者组队讨论，出现问题的时候多思考以及多查阅资料。

代码下载：

链接：https://pan.baidu.com/s/11hmFMnKqnA1j_5NnpoGzVQ

提取码：wxr6

插入构建baseline

作业名称（详解）：针对于不同的数据运用pandas和sklearn处理的方式区别是什么？说明模型只能拟合什么样子的数据，为什么数据归一化和不归一化的结果会有差距？提交成绩的截图。

作业提交形式：截图，文字，打卡提交。

打卡内容：（可以只是文字提交，或图片提交，或组合都行）

文字要求最少200字

图片要求最少1张

打卡截止日期：1/7

点我打卡！快来提交你的作业吧~

打卡

针对于不同的数据运用pandas和sklearn处理的方式区别是什么？

Pandas 主要是对数据本身进行一些操作，多是单纯的”物理“操作，集中在数据预处理阶段，包括：数据数据导入和清洗等等；而 sklearn 多是利用其包含的丰富的机器学习模块和方法对数据进行”物理“和”化学“操作，比如，完成特征选择、数据降维、模型训练和最后的预测等操作。

说明模型只能拟合什么样子的数据
这个问题，似乎问的有些模糊？模型能够拟合的数据，首先至少要满足已经数据已经向量化，同时至少还一定要满足一定的 shape 才能够输入到模型中去。
为什么数据归一化和不归一化的结果会有差距？
将数据变为正态分布是标准化，将数据值的范围缩小到一定的范围，比如[0, 1]是归一化。
数据的归一化主要是为了消除不同特征的量纲影响，将所有的数据放在了同一个范围内进行比较会提取更多有效信息同时消除了奇异样本的不良影响。
同时，归一化/标准化实质是一种线性变换，变换后可以加快梯度下降求解的速度。
提交成绩的截图。

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。