点击上方“数据蛙DataFrog”,选择“加为星标”
第一时间关注数据分析干货!
作者:wing 努力学习
编辑:DataFrog
原文链接在文末可点击查阅!
一、模型评估
1.1 什么是ROC曲线ROC的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线”,顾名思义,其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下:
该曲线的横坐标为假阳性率(False Positive Rate, FPR),N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。纵坐标为真阳性率(True Positive Rate, TPR),公式为:
P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。
举一个简单的例子方便大家的理解,假设现在有10个雷达信号警报,其中8个是真的轰炸机(P)来了,2个是大鸟(N)飞过,经过某分析员解析雷达的信号,判断出9个信号是轰炸机,剩下1个是大鸟,其中被判定为轰炸机的信号中,有1个其实是大鸟的信号(FP=1),而剩下8个确实是轰炸机信号(TP=8)。
因此可以计算出FPR0.5,TPR为1,而就(0.5,1)对应ROC曲线上一点。
1.2 如何计算AUC
AUC(Area Under roc Cure),顾名思义,其就是ROC曲线下的面积,该值能够量化地反映基于rOC曲线衡量出的模型性能。
计算AUC值只需要沿着ROC横轴做积分就可以,取值一般在0.5~1之间。AUC越大,说明分类效果越好。
1.3 模型评估验证方法
简单交叉验证首先随机的将样本数据分为两部分,一部分作为训练集,另一部分作为测试集(比如:70%的训练集,30%的测试集);然后用训练集在各种条件下来训练模型,在测试集上评价各模型的测试误差。选择出测试误差最小的模型。
S折交叉验证S折交叉验证是运用最多的方法,首先把样本数据随机的分成S份,每次随机的选择S-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择S-1份来训练数据。若干轮(小于S)之后,选择损失函数评估最优的模型和参数。
留一交叉验证它是第二种情况的特例,此时S=样本数N(N为给定数据集的容量),这样对于N个样本,每次选择N-1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况。
1.4 超参数有哪些调优方法
网格搜索网格搜索是最简单、最广泛的超参数搜索算法,它通过查找搜索范围内的所有点来确定最优解。这种搜索方法十分消耗计算资源和时间,特别是需要调优参数较多时。
随机搜索随机搜索是在搜索范围随机选取样本点。如果样本点集足够大,那么通过随机采样也能大概率找到全局最优解或近似值。
贝叶斯优化算法。
1.5 欠拟合和过拟合出现原因,如何处理
1.5.1 欠拟合
原因:模型复杂度过低,特征量过少。
解决方案:1)增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间。2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。3)减少正则化参数,正则化的目的是用来防止过拟合的