如何对一个变量数据进行正则判定_数据分析师常见面试题机器学习算法篇

最新推荐文章于 2023-07-15 15:54:49 发布

weixin_39842937

最新推荐文章于 2023-07-15 15:54:49 发布

阅读量396

点赞数

文章标签：如何对一个变量数据进行正则判定

本文链接：https://blog.csdn.net/weixin_39842937/article/details/111286518

版权

本文介绍了模型评估中的ROC曲线、AUC计算及模型验证方法，如交叉验证。讨论了欠拟合和过拟合的原因及解决方案，如增加特征、正则化。接着，讲解了逻辑回归、决策树、KNN等经典算法，包括它们的适用场景和优化策略。最后，简要提到了特征工程中类别型特征的处理方法。

摘要由CSDN通过智能技术生成

点击上方“数据蛙DataFrog”，选择“加为星标”

第一时间关注数据分析干货！

作者：wing 努力学习

编辑：DataFrog

原文链接在文末可点击查阅！

1.1 什么是ROC曲线ROC的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线”，顾名思义，其主要的分析方法就是画这条特征曲线。这里在网上找了一个比较好的图样示例如下：

该曲线的横坐标为假阳性率(False Positive Rate, FPR)，N是真实负样本的个数，FP是N个负样本中被分类器预测为正样本的个数。纵坐标为真阳性率(True Positive Rate, TPR)，公式为：

P是真实正样本的个数，TP是P个正样本中被分类器预测为正样本的个数。

举一个简单的例子方便大家的理解，假设现在有10个雷达信号警报，其中8个是真的轰炸机(P)来了，2个是大鸟(N)飞过，经过某分析员解析雷达的信号，判断出9个信号是轰炸机，剩下1个是大鸟，其中被判定为轰炸机的信号中，有1个其实是大鸟的信号(FP=1)，而剩下8个确实是轰炸机信号(TP=8)。

因此可以计算出FPR0.5，TPR为1，而就(0.5，1)对应ROC曲线上一点。

1.2 如何计算AUC

AUC(Area Under roc Cure)，顾名思义，其就是ROC曲线下的面积，该值能够量化地反映基于rOC曲线衡量出的模型性能。

计算AUC值只需要沿着ROC横轴做积分就可以，取值一般在0.5~1之间。AUC越大，说明分类效果越好。

1.3 模型评估验证方法

简单交叉验证首先随机的将样本数据分为两部分，一部分作为训练集，另一部分作为测试集(比如：70%的训练集，30%的测试集)；然后用训练集在各种条件下来训练模型，在测试集上评价各模型的测试误差。选择出测试误差最小的模型。

S折交叉验证S折交叉验证是运用最多的方法，首先把样本数据随机的分成S份，每次随机的选择S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择S-1份来训练数据。若干轮(小于S)之后，选择损失函数评估最优的模型和参数。

留一交叉验证它是第二种情况的特例，此时S=样本数N(N为给定数据集的容量)，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况。

1.4 超参数有哪些调优方法

网格搜索网格搜索是最简单、最广泛的超参数搜索算法，它通过查找搜索范围内的所有点来确定最优解。这种搜索方法十分消耗计算资源和时间，特别是需要调优参数较多时。

随机搜索随机搜索是在搜索范围随机选取样本点。如果样本点集足够大，那么通过随机采样也能大概率找到全局最优解或近似值。

贝叶斯优化算法。

1.5.1 欠拟合

原因：模型复杂度过低，特征量过少。

解决方案：1)增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间。2)添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。3)减少正则化参数，正则化的目的是用来防止过拟合的

关注