【动手学数据分析】Task03笔记

建模:

前两个task中学会了怎么清洗数据准备数据,相当于得到了喂给模型的建模数据。

判断是否存活,所以是个监督问题。

下面这个图实在是有灵性。

 

 

【思考】

  • 划分数据集的方法有哪些? 留出法、k折验证法
  • 为什么使用分层抽样,这样的好处有什么?分层抽样的精度比简单随机抽样的精度高

单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。

 

参数说明:train_test_split (*arrays,test_size, train_size, rondom_state=None, shuffle=True, stratify=None)

  • arrays:特征数据和标签数据(array,list,dataframe等类型),要求所有数据长度相同。
  • test_size / train_size: 测试集/训练集的大小,小数表示比例 / 整数表示数据个数。
  • random_state:随机种子(一个整数),random_state相同划分结果也相同。
  • shuffle:是否打乱数据的顺序,再划分,默认True。
  • stratify:none或者array/series类型的数据,表示进行分层采样的依据。 

为什么线性模型可以进行分类任务,背后是怎么的数学关系?

设定阈值?概率问题

对于多分类问题,线性模型是怎么进行分类的?

也是算概率?不太记得了

评估:

评价评的是模型的泛化能力。

“交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。”

k折越多的情况下会带来什么样的影响?

偏差和方差的问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值