特征选择神仙操作,拿下Nature子刊!计算效率狂提98%!

特征选择是AI领域非常重要的技术,它能够 从已有的特征集合中,挑选出对目标变量预测最有用的特征子集。在提高模型性能、可解释性、减少过拟合风险方面不可替代。

正因如此,对其的探讨,也成为了各大期刊会议的宠儿!比如Nature子刊的bGGO,准确率远超SOTA;还有计算效率狂提98%的FSFS……

目前主流的方法主要有:过滤法、包装法、嵌入法、混合法!为了让大家能够更加深入地理解每种方法,落地到自己的文章里,高效涨点,每种方法我都给大家准备了必读的参考论文以及开源代码

论文原文+开源代码需要的同学看文末

混合法

Feature selection in the contrastive analysis setting

内容:文章提出一种在对比分析(CA)设置中执行特征选择的方法。该研究通过信息论分析了CA设置中的表示学习,并在半合成数据集和四个真实世界生物医学数据集上验证了CFS的有效性。研究发现,CFS方法在区分目标数据集中的子类别方面,相较于之前提出的监督和完全无监督的特征选择方法,表现更为出色。

嵌入法

Fairness-Aware Streaming Feature Selection with Causal Graphs

内容:论文提出了一种新的在线特征选择方法,它在处理流数据时考虑了群体公平性。SFCF方法通过构建两个因果图来优化所选特征子集上的模型准确性和公平性之间的权衡。这种方法特别适用于流特征输入,其中新特征不断出现,可能使先前特征变得过时或冗余。SFCF通过移除与受保护特征因果相关但与标签独立的特征来消除偏见,同时允许原本对标签冗余的特征在移除大量特征后重新变得可接受,以平衡准确性和公平性之间的权衡。

包装法

Enhancing deep learning‑based slope stability classifcation using a novel metaheuristic optimization algorithm for feature selection

内容:文章提出了一种新的元启发式优化算法(二进制灰lag鹅优化算法,bGGO)用于特征选择,并将其与深度学习模型结合,以提高斜坡稳定性的分类准确性。研究通过相关性分析和特征重要性评估,确定了影响斜坡稳定性的关键因素,包括凝聚力、单位重量、斜坡高度和摩擦角。研究评估了结合现代特征选择算法和传统特征分析方法的机器学习技术的有效性,并评估了包括循环神经网络(RNN)、长短期记忆网络(LSTM)和生成对抗网络(GAN)在内的深度学习模型在斜坡稳定性分类中的性能。

过滤法

Feature selection with distance correlation

内容:文章介绍了一种基于距离相关性的新特征选择方法(DisCo-FFS),并将其应用于高能物理中的提升顶夸克标记任务。研究者们展示了这种方法在从超过7000个能量流多项式中选择特征时的有效性,证明了通过仅使用少量特征(少于10个)就能达到接近最先进深度学习标记器的性能。DisCo-FFS方法不仅能够从真实标签中进行特征选择,还能解释预训练的黑盒AI模型。

码字不易,欢迎大家点赞评论收藏!

关注下方《AI科研技术派》

回复【特征选择】获取完整论文

👇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值