【动手学数据分析】Task03笔记

最新推荐文章于 2022-09-15 17:58:05 发布

闷闷跑圈圈

最新推荐文章于 2022-09-15 17:58:05 发布

阅读量143

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30906219/article/details/108241130

版权

建模：

前两个task中学会了怎么清洗数据准备数据，相当于得到了喂给模型的建模数据。

判断是否存活，所以是个监督问题。

下面这个图实在是有灵性。

【思考】

划分数据集的方法有哪些？留出法、k折验证法
为什么使用分层抽样，这样的好处有什么？分层抽样的精度比简单随机抽样的精度高

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。

参数说明：train_test_split (*arrays，test_size, train_size, rondom_state=None, shuffle=True, stratify=None)

arrays：特征数据和标签数据（array，list，dataframe等类型），要求所有数据长度相同。
test_size / train_size: 测试集/训练集的大小，小数表示比例 / 整数表示数据个数。
random_state：随机种子（一个整数），random_state相同划分结果也相同。
shuffle：是否打乱数据的顺序，再划分，默认True。
stratify：none或者array/series类型的数据，表示进行分层采样的依据。

为什么线性模型可以进行分类任务，背后是怎么的数学关系？

设定阈值？概率问题

对于多分类问题，线性模型是怎么进行分类的？

也是算概率？不太记得了

评估：

评价评的是模型的泛化能力。

“交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。”

k折越多的情况下会带来什么样的影响？

偏差和方差的问题

闷闷跑圈圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【动手学数据分析】Task03笔记

建模：前两个task中学会了怎么清洗数据准备数据，相当于得到了喂给模型的建模数据。判断是否存活，所以是个监督问题。下面这个图实在是有灵性。【思考】划分数据集的方法有哪些？留出法、k折验证法为什么使用分层抽样，这样的好处有什么？分层抽样的精度比简单随机抽样的精度高单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。参数说明：train_test_split (*arrays...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。