Datawhale-动手学数据分析-Task5

最新推荐文章于 2024-06-24 07:09:04 发布

ukikoo

最新推荐文章于 2024-06-24 07:09:04 发布

阅读量1.4k

点赞数 2

分类专栏：动手学数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_44645842/article/details/123724488

版权

动手学数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

模型搭建和评估

【思考】这些库的作用是什么呢？：
pandas：用于数据分析、数据挖掘、数据清洗
matplotlib：用于数据可视化
seaborn：基于 matplotlib 的统计图制作库
Ipython.display.Image：直接使用 IPython.display 类的 Image 打开图片, 再 display
清洗后的数据比原始数据缺少了姓名和船票信息，这些数据与存活概率无相关性
监督学习：训练样本有标记
无监督学习：训练样本无标记
【思考】划分数据集的方法有哪些？：
留出法、交叉验证、自助法
【思考】为什么使用分层抽样，这样的好处有什么？：
样本的代表性比较好，抽样误差比较小
train_test_split() 的参数：
stratify = y 按照 y 中的比例分配，用于处理不均衡的数据集
random_state 默认为 None ，设置为整数时可以使每次生成的数据都相同
【思考】什么情况下切割数据集的时候不用进行随机选取？：
数据样本足够大
【思考】为什么线性模型可以进行分类任务，背后是怎么的数学关系
【思考】对于多分类问题，线性模型是怎么进行分类的
暂缓
predict_proba 返回对于各个类别的预测概率
precision $\frac{TP}{(TP+FP)}$
recall $\frac{TP}{(TP+FN)}$
【思考】k折越多的情况下会带来什么样的影响？：
随着K值的不断升高，单一模型评估时的方差逐渐加大而偏差减小。但从总体模型角度来看，反而是偏差升高了而方差降低了。

ukikoo

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Datawhale-动手学数据分析-Task5

模型搭建和评估【思考】这些库的作用是什么呢？：pandas：用于数据分析、数据挖掘、数据清洗matplotlib：用于数据可视化seaborn：基于 matplotlib 的统计图制作库Ipython.display.Image：直接使用 IPython.display 类的 Image 打开图片, 再 display清洗后的数据比原始数据缺少了姓名和船票信息，这些数据与存活概率无相关性监督学习：训练样本有标记无监督学习：训练样本无标记【思考】划分数据集的方法有哪些？：留出法、交
复制链接

扫一扫