如何对一个变量数据进行正则判定_数据分析师常见面试题机器学习算法篇

本文介绍了模型评估中的ROC曲线、AUC计算及模型验证方法,如交叉验证。讨论了欠拟合和过拟合的原因及解决方案,如增加特征、正则化。接着,讲解了逻辑回归、决策树、KNN等经典算法,包括它们的适用场景和优化策略。最后,简要提到了特征工程中类别型特征的处理方法。
摘要由CSDN通过智能技术生成

点击上方“数据蛙DataFrog”,选择“加为星标”

第一时间关注数据分析干货!

e24e59fc9dca245432c31e8cb586d867.png

作者:wing 努力学习

编辑:DataFrog

原文链接在文末可点击查阅!

一、模型评估

1.1 什么是ROC曲线ROC的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线”,顾名思义,其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下:

c5cfa1380179243fd565064703288809.png

该曲线的横坐标为假阳性率(False Positive Rate, FPR),N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。纵坐标为真阳性率(True Positive Rate, TPR),公式为:

  63e1ba7c1370dc46e1d6aee2e0632235.png

P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。

举一个简单的例子方便大家的理解,假设现在有10个雷达信号警报,其中8个是真的轰炸机(P)来了,2个是大鸟(N)飞过,经过某分析员解析雷达的信号,判断出9个信号是轰炸机,剩下1个是大鸟,其中被判定为轰炸机的信号中,有1个其实是大鸟的信号(FP=1),而剩下8个确实是轰炸机信号(TP=8)。

因此可以计算出FPR0.5,TPR为1,而就(0.5,1)对应ROC曲线上一点。

1.2 如何计算AUC

AUC(Area Under roc Cure),顾名思义,其就是ROC曲线下的面积,该值能够量化地反映基于rOC曲线衡量出的模型性能。

计算AUC值只需要沿着ROC横轴做积分就可以,取值一般在0.5~1之间。AUC越大,说明分类效果越好。

1.3 模型评估验证方法

简单交叉验证首先随机的将样本数据分为两部分,一部分作为训练集,另一部分作为测试集(比如:70%的训练集,30%的测试集);然后用训练集在各种条件下来训练模型,在测试集上评价各模型的测试误差。选择出测试误差最小的模型。

S折交叉验证S折交叉验证是运用最多的方法,首先把样本数据随机的分成S份,每次随机的选择S-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择S-1份来训练数据。若干轮(小于S)之后,选择损失函数评估最优的模型和参数。

留一交叉验证它是第二种情况的特例,此时S=样本数N(N为给定数据集的容量),这样对于N个样本,每次选择N-1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况。

1.4 超参数有哪些调优方法

网格搜索网格搜索是最简单、最广泛的超参数搜索算法,它通过查找搜索范围内的所有点来确定最优解。这种搜索方法十分消耗计算资源和时间,特别是需要调优参数较多时。

随机搜索随机搜索是在搜索范围随机选取样本点。如果样本点集足够大,那么通过随机采样也能大概率找到全局最优解或近似值。

贝叶斯优化算法。

1.5 欠拟合和过拟合出现原因,如何处理

1.5.1 欠拟合

原因:模型复杂度过低,特征量过少。

解决方案1)增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间。2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。3)减少正则化参数,正则化的目的是用来防止过拟合的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值