动手学数据分析 Task05:数据建模及模型评估

动手学数据分析

本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。

附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~

由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。

现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。

Task05:数据建模及模型评估

在这里插入图片描述
链接:https://pan.baidu.com/s/1zXGkoiUBWp4Z7cQI0tMTYg
提取码:n4ze

一、重点与思考

筛选了一些比较重要的操作以及一些思考的回答:(部分答案在脑图中有)
【思考】

  • 划分数据集的方法有哪些?
    《数据集划分方法》
  • 分层抽样
    好处:样本的代表性比较好,抽样误差比较小。

【思考】

【思考】k折越多的情况下会带来什么样的影响?
k折越多,平均误差被视为泛化误差这个结果就越可靠,但相应的所花费的时间也是线性增长的。

【思考】什么是二分类问题的混淆矩阵,理解这个概念,知道它主要是运算到什么任务中的
《二分类评估,从混淆矩阵说起》

【思考】什么是OCR曲线,OCR曲线的存在是为了解决什么问题?
《机器学习之分类器性能指标之ROC曲线、AUC值》

【思考】对于多分类问题如何绘制ROC曲线
《多分类ROC曲线及AUC计算》

【思考】你能从这条OCR曲线的到什么信息?这些信息可以做什么?

  1. 一个ROC曲线完全”包住“另一个ROC曲线—>第一个学习器效果更好
  2. 两个ROC曲线相交—>利用ROC曲线下的面积(AUC,area under ROC curve,是一个数值)进行比较学习器的效果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值