浅谈在实际工程中关于特征选择的一些心得体会

本文总结了在实际工程中特征选择的四种常用方法:过滤法、封装法、嵌入法和多级特征选择。重点介绍了多级特征选择,其中第一级常采用遗传算法或过滤法去除异常值,第二级使用封装法、递归特征消除、皮尔森相关系数或距离相关系数等。还探讨了综合特征打分方法,通过多个评价函数(如斯皮尔曼、肯德尔相关系数、Lasso回归和随机森林重要性)加权平均,以提高特征选择效果。
摘要由CSDN通过智能技术生成

浅谈在实际工程中关于特征选择的一些心得体会

关于特征选择方法的总结

  1. 原始特征数据集经过评价函数(过滤法、封装法、嵌入法)直接进行筛选;
  2. 原始特征数据集包含有2的N次方个特征子集(N为特征向量种类),通过合适的算法得到最优或者次优的数据集子集,转化为最优解问题或次优解问题;
  3. 多级特征选择方法,通过设置第一级、第二级的方法对原始特征数据集进行多次处理;
  4. 综合特征打分方法,利用评价函数(Pearson 相关系数、距离相关系数、随机森林等)对特征变量分别进行打分,并进而计算其总得分,以尽量减少数据和单一特征选择方法引起的问题,进而改善特征选择的效果。

目前,在博主所研究的工程中上述所总结的4种常见方法都已经得到了较好的应用,并取得了不错的结果。对于较为简单的1、2两种方式不再进行赘述,主要围绕3、4的方法进行阐述。同时,上述两种工程应用思路已成功申请软著。

多级特征选择方法

由于所涉及的原始特征数据集为前端设备所采集的小样本数据,因此在这里不再提供数据集,仅提供核心代码。

1. 第一级特征选择方法
在第一级的特征选择方法中,主要采用遗传算法随机滤除含有异常值、无用值较多的特征向量对原始数据进行预处理。在一开始的探索尝试中,也有用过滤法、封装法等作为第一级选择方法使用,但对于本工程而言其应用效果不太理想,为了提供多种思路供大家探索,这里放了多种已经验证过的第一级特征选择方法。

遗传算法作为第一级特征选择方法:

from _csv import reader
from sklearn.datasets import make_classification
from sklearn import linear_model
from feature_selection_ga import FeatureSelectionGA
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

class CustomFitnessFunctionClass:
    def __init__(self, n_total_features, n_splits, alpha, *args, **kwargs):
        """
            Parameters
            -----------
            n_total_features :int
            	Total number of features N_t.
            n_splits :int, default = 5
                Number of splits for cv
            alpha :float, default = 0.01
                Tradeoff between the classifier performance P and size of
                feature subset N_f with respect to the total number of features
                N_t.
            verbose: 0 or 1
        """
        self.n_splits = n_splits
        self.alpha = alpha
        self.n_total_features = n_total_features

    def calculate_fitness(self, model, x, y):
        alpha = self.alpha
        total_features = self.n_total_features
        cv_set 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值