机器学习小知识二

最新推荐文章于 2024-07-11 15:21:16 发布

learning more

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量133

点赞数

分类专栏：赛题类机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43242479/article/details/134477950

版权

机器学习同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

赛题类

6 篇文章 0 订阅

订阅专栏

1、在对数值特征进行缺失值填充时，该如何从平均数、中位数和众数中选择

选择在对数值特征进行缺失值填充时使用的统计量（平均数、中位数、众数）通常取决于数据的分布以及对数据进行填充的影响。以下是对这三种统计量的一些建议：

平均数（Mean）：
- 适用场景：适用于对称分布且无明显偏差的数据。当数据近似正态分布时，平均数是一个不错的选择。
- 优势：平均数对异常值不敏感，当数据没有明显的偏移时，填充的值可能会比较稳定。
- 注意事项：对于偏斜（skewed）或包含异常值的数据，平均数可能不是一个很好的选择，因为它可能受到极端值的影响。
中位数（Median）：
- 适用场景：适用于偏斜分布的数据，对异常值比较敏感时可以考虑使用中位数。
- 优势：中位数对于受到异常值干扰的数据更为稳健，能够更好地反映数据的集中趋势。
- 注意事项：当数据接近正态分布时，平均数可能更为合适。
众数（Mode）：
- 适用场景：适用于类别型数据，或者对于有明显集中趋势的离散型数值数据。
- 优势：对于离散型数据，众数是一个合适的选择，尤其是当数据分布呈现明显的集中趋势时。
- 注意事项：对于连续型数据，众数的应用较少，因为连续型数据的众数可能并不唯一。

在实践中，可以根据数据的分布和特性选择适当的填充策略。在进行填充之前，最好对数据的分布进行可视化或进行统计摘要，以更好地了解数据的性质。此外，可以尝试不同的填充策略，并使用交叉验证等方法评估不同策略的性能。

2、在特征选择中，有一类是基于惩罚项的特征选择方法，包含L1正则和L2正则，两种正则有什么区别？该如何选择？

L1正则和L2正则是基于惩罚项的特征选择方法，用于在模型训练过程中对模型的系数进行惩罚，从而实现特征选择的效果。这两者的区别主要体现在惩罚的形式和对模型的影响上。

L1正则（Lasso Regression）：

惩罚形式：L1正则通过在模型的损失函数中添加系数绝对值的和（L1范数），即 (||\beta||_1)，来对模型进行惩罚。
特点：L1正则倾向于产生稀疏权重，即将某些特征的系数变为零，从而实现特征选择的效果。因此，L1正则可以用于特征选择，帮助剔除对目标变量贡献较小的特征。
适用场景：当数据集具有冗余特征或者特征之间存在较强相关性时，L1正则通常较为有效。

L2正则（Ridge Regression）：

惩罚形式：L2正则通过在模型的损失函数中添加系数平方的和（L2范数），即 (||\beta||_2^2)，来对模型进行惩罚。
特点：L2正则对权重的惩罚是连续的，倾向于让所有特征的权重都趋近于零，但很少变为零。它不太容易产生稀疏解，相比于L1正则，L2正则更倾向于保留所有特征。
适用场景：当数据集中的特征对目标变量的贡献相对均衡，不存在强烈的特征选择需求时，L2正则通常较为适用。

如何选择：

L1 vs. L2：选择L1还是L2正则通常取决于具体问题和数据的性质。如果希望在模型中进行特征选择，使得一些特征的权重变为零，可以尝试使用L1正则。如果更关注模型整体的性能，而不太关心特征的稀疏性，可以尝试使用L2正则。
弹性网（Elastic Net）：有时也可以考虑使用弹性网，它是L1和L2正则的结合，同时考虑了两者的惩罚项。弹性网在L1和L2之间提供了权衡，并且可以在某些情况下更稳健。
调参：正则化项的强度（alpha）是需要调优的超参数。可以通过交叉验证等方法来选择适当的正则化强度。

综合来说，L1和L2正则是在特征选择中经常使用的方法，选择哪一种通常取决于具体的问题和数据集。

3、整个特征工程分为几个部分，每个部分包含哪些内容

特征工程是机器学习和数据分析中至关重要的一部分，它包括了多个阶段，每个阶段都有不同的任务和技术。通常，特征工程可以分为以下几个主要部分：

数据清理（Data Cleaning）：
- 缺失值处理：填充或删除缺失值。
- 异常值处理：检测和处理异常值。
- 重复值处理：识别和处理数据中的重复样本。
数据预处理（Data Preprocessing）：
- 数据标准化/归一化：确保不同特征具有相同的尺度。
- 数据编码：将非数值型数据转换为数值型，如独热编码。
- 特征缩放：将数值型数据缩放到一定范围，例如使用Min-Max缩放或标准化（Z-score标准化）。
- 处理时间序列数据：提取时间特征，平滑或填充缺失时间点。
特征选择（Feature Selection）：
- 过滤式选择：基于统计检验或相关性的方法选择特征。
- 包裹式选择：使用机器学习模型来评估不同特征子集的性能。
- 嵌入式选择：在模型训练过程中直接选择特征，如L1正则化。
特征构造（Feature Engineering）：
- 多项式特征：创建新的特征，例如将两个特征的交叉项作为新特征。
- 数值变换：对数变换、指数变换等。
- 时间特征：从日期时间数据中提取季节、月份、星期等信息。
- 文本特征处理：词袋模型、TF-IDF等方法处理文本数据。
降维（Dimensionality Reduction）：
- 主成分分析（PCA）：通过线性变换将原始特征转化为一组线性无关的新特征，以减少维度。
- t-SNE：用于可视化高维数据的非线性降维方法。
数据分割与抽样（Data Splitting and Sampling）：
- 训练集、验证集、测试集划分：将数据划分为训练、验证和测试集，以评估模型性能。
- 过采样与欠采样：处理类别不平衡问题，如SMOTE、RandomUnderSampler等。
特征交叉（Feature Cross）：
- 结合不同特征：创建新特征，例如将两个特征的组合作为新特征。
特征重要性分析（Feature Importance Analysis）：
- 利用模型：通过训练模型后分析特征的重要性，如决策树、随机森林等。
- 统计方法：使用统计方法（例如方差分析）评估特征的重要性。

总体而言，特征工程是一个迭代的过程，需要不断尝试和优化。不同的问题和数据可能需要不同的特征工程方法。

4、在数据清洗的过程中，应该如何选择异常值的处理方式

处理异常值时，选择合适的方式取决于数据的性质、异常值的原因以及对问题的影响。以下是一些常见的异常值处理方式：

删除异常值（Remove Outliers）：
- 优点：简单直接，不影响数据的整体分布。
- 缺点：可能会丢失一些重要信息，特别是在数据集较小的情况下。
截断（Truncate）或修剪（Winsorize）：
- 截断：将超过一定阈值的数值设置为该阈值。
- 修剪：将超过一定分位数的数值替换为该分位数的值。
- 优点：保留数据的整体分布，减少了极端值的影响。
- 缺点：可能会引入一些偏差，但相比于删除异常值更保守。
替换异常值（Impute）：
- 均值/中位数/众数替换：使用数据的均值、中位数或众数替换异常值。
- 插值法：根据相邻数据的插值来替换异常值。
- 模型预测：使用其他特征来预测异常值。
- 优点：保留了数据的整体趋势。
- 缺点：可能会引入噪音，特别是在异常值较多或模型不准确时。
离散化（Binning）：
- 将连续型数据分组为离散的区间，将异常值放入合适的区间。
- 优点：降低了异常值的影响，将其转化为离散的特征。
- 缺点：可能丢失一些连续性信息。
使用专门的模型：
- 使用异常检测模型，例如孤立森林（Isolation Forest）、One-Class SVM等，来识别和处理异常值。
- 优点：能够更精确地识别异常值。
- 缺点：需要训练额外的模型，可能对计算资源要求较高。

在选择异常值处理方式时，需要根据具体情况综合考虑数据的分布、业务背景、数据量和模型对异常值的敏感程度。通常，可以通过观察处理前后的模型性能变化来选择合适的方式。特别是在异常值可能包含重要信息的情况下，谨慎处理以避免损失有价值的信息。

5、count、nuique、ratio三种统计特征的含义

这三种统计特征分别表示了数据中的计数、唯一值数量以及唯一值的比例。它们通常用于对数据的基本统计性质进行描述和特征工程。

Count（计数）：
- 含义：Count表示数据中某个特征或某个特定条件的样本数量。
- 计算方法：对于某一特征或条件，计算数据中满足条件的样本数量。
Unique（唯一值数量）：
- 含义：Unique表示数据中不同的唯一值的数量，即数据中有多少种不同的取值。
- 计算方法：对于某一特征，计算该特征中不同取值的数量。
Ratio（比例）：
- 含义：Ratio表示唯一值在整体样本中的比例，即唯一值的数量占总样本数量的比例。
- 计算方法：用Unique除以Count，然后乘以100，得到唯一值在整体样本中的百分比。