Datawhale AI 夏令营学习笔记（三）

最新推荐文章于 2024-09-14 17:49:29 发布

Anesthi

最新推荐文章于 2024-09-14 17:49:29 发布

阅读量238

点赞数 3

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/Anesthi/article/details/140860161

版权

使用 SelectKBest 进行特征选择并应用于自定义 Dataset 类

目标

在机器学习中，特征选择是提高模型性能和减少计算复杂度的重要步骤。本文介绍如何在自定义 Dataset 类中使用 SelectKBest 方法选择最佳的 k 个特征，并应用于数据集。

特征选择的意义

特征选择通过选择最相关的特征来提高模型的泛化能力，减少过拟合，并加速模型训练过程。它可以帮助我们从高维数据中提取出对预测目标最有用的特征，进而提高模型的性能。

SelectKBest 方法

SelectKBest 是 sklearn.feature_selection 模块中的一个类，用于选择评分最高的 k 个特征。SelectKBest 通过对每个特征进行单变量统计测试，选择出前 k 个最佳特征。常用的评分函数包括 f_classif（方差分析F值）和 chi2（卡方统计量）。

使用步骤

收集所有特征和标签数据：将数据集中的所有样本和对应的标签数据收集起来。
应用 SelectKBest 进行特征选择：使用 SelectKBest 类选择评分最高的 k 个特征。
更新数据集：用选择后的特征更新数据集，使其包含仅包含最佳特征。

理论与应用

1. 特征选择的必要性

在高维数据集中，许多特征可能是冗余的或不相关的。使用所有特征进行训练不仅会增加模型的复杂度，还可能导致模型的过拟合。通过特征选择，我们可以：

降低模型的复杂度
减少训练时间
提高模型的泛化能力

2. SelectKBest 的优势

简单易用：SelectKBest 提供了简便的接口，可以快速选择最佳特征。
统计意义：通过统计测试方法（如方差分析、卡方检验等），选择具有统计意义的特征。
灵活性高：支持多种评分函数，可以根据不同的任务选择合适的评分方法。

3. 选择最佳特征的过程

假设我们有一个自定义的 Dataset 类，我们可以在初始化时使用 SelectKBest 方法选择最佳特征。具体过程如下：

数据收集：收集所有训练数据的特征和标签。
特征评分：使用 SelectKBest 对每个特征进行评分。
特征选择：选择评分最高的 k 个特征，并更新数据集。

示例代码

以下是一个简化的代码示例，展示如何在自定义 Dataset 类中应用 SelectKBest 方法：

from sklearn.feature_selection import SelectKBest, f_classif
import numpy as np
import torch
from torch.utils.data import Dataset

class mydataset(Dataset):
    def __init__(self, train=True, data_limit=None, k=10):
        # 数据初始化代码省略
        if self.train:
            self.augment_data()
            self.select_k_best_features(k)

    def augment_data(self):
        # 数据增强代码省略

    def select_k_best_features(self, k):
        all_features = []
        all_labels = []
        for init_time in self.init_times:
            ft_item = self.ft.get_fts(init_time).to_array().isel(variable=0).values
            gt_item = self.gt.get_gts(init_time).to_array().isel(variable=0).values
            all_features.append(ft_item)
            all_labels.append(gt_item)
        
        all_features = np.array(all_features).reshape(all_features.shape[0], -1)
        all_labels = np.array(all_labels).reshape(-1)
        
        select_k_best = SelectKBest(score_func=f_classif, k=k)
        select_k_best.fit_transform(all_features, all_labels)
        
        self.selected_feature_indices = select_k_best.get_support(indices=True)
        print(f'Selected {k} best features: {self.selected_feature_indices}')

    def __getitem__(self, index):
        init_time = self.init_times[index]
        ft_item = self.ft.get_fts(init_time).to_array().isel(variable=0).values
        gt_item = self.gt.get_gts(init_time).to_array().isel(variable=0).values
        ft_item = ft_item.reshape(-1)[self.selected_feature_indices]
        return torch.tensor(ft_item, dtype=torch.float32), torch.tensor(gt_item, dtype=torch.float32)

    def __len__(self):
        return len(self.init_times)