动手学数据分析
本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。
附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~
由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。
现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。
Task05:数据建模及模型评估
链接:https://pan.baidu.com/s/1zXGkoiUBWp4Z7cQI0tMTYg
提取码:n4ze
一、重点与思考
筛选了一些比较重要的操作以及一些思考的回答:(部分答案在脑图中有)
【思考】
- 划分数据集的方法有哪些?
《数据集划分方法》 - 分层抽样
好处:样本的代表性比较好,抽样误差比较小。
【思考】
- 为什么线性模型可以进行分类任务,背后是怎么的数学关系
- 对于多分类问题,线性模型是怎么进行分类的
《机器学习笔记-利用线性模型进行分类》
【思考】k折越多的情况下会带来什么样的影响?
k折越多,平均误差被视为泛化误差这个结果就越可靠,但相应的所花费的时间也是线性增长的。
【思考】什么是二分类问题的混淆矩阵,理解这个概念,知道它主要是运算到什么任务中的
《二分类评估,从混淆矩阵说起》
【思考】什么是OCR曲线,OCR曲线的存在是为了解决什么问题?
《机器学习之分类器性能指标之ROC曲线、AUC值》
【思考】对于多分类问题如何绘制ROC曲线
《多分类ROC曲线及AUC计算》
【思考】你能从这条OCR曲线的到什么信息?这些信息可以做什么?
- 一个ROC曲线完全”包住“另一个ROC曲线—>第一个学习器效果更好
- 两个ROC曲线相交—>利用ROC曲线下的面积(AUC,area under ROC curve,是一个数值)进行比较学习器的效果