机器学习小知识二

1、在对数值特征进行缺失值填充时,该如何从平均数、中位数和众数中选择

选择在对数值特征进行缺失值填充时使用的统计量(平均数、中位数、众数)通常取决于数据的分布以及对数据进行填充的影响。以下是对这三种统计量的一些建议:

  1. 平均数(Mean)

    • 适用场景:适用于对称分布且无明显偏差的数据。当数据近似正态分布时,平均数是一个不错的选择。
    • 优势:平均数对异常值不敏感,当数据没有明显的偏移时,填充的值可能会比较稳定。
    • 注意事项:对于偏斜(skewed)或包含异常值的数据,平均数可能不是一个很好的选择,因为它可能受到极端值的影响。
  2. 中位数(Median)

    • 适用场景:适用于偏斜分布的数据,对异常值比较敏感时可以考虑使用中位数。
    • 优势:中位数对于受到异常值干扰的数据更为稳健,能够更好地反映数据的集中趋势。
    • 注意事项:当数据接近正态分布时,平均数可能更为合适。
  3. 众数(Mode)

    • 适用场景:适用于类别型数据,或者对于有明显集中趋势的离散型数值数据。
    • 优势:对于离散型数据,众数是一个合适的选择,尤其是当数据分布呈现明显的集中趋势时。
    • 注意事项:对于连续型数据,众数的应用较少,因为连续型数据的众数可能并不唯一。

在实践中,可以根据数据的分布和特性选择适当的填充策略。在进行填充之前,最好对数据的分布进行可视化或进行统计摘要,以更好地了解数据的性质。此外,可以尝试不同的填充策略,并使用交叉验证等方法评估不同策略的性能。

2、在特征选择中,有一类是基于惩罚项的特征选择方法,包含L1正则和L2正则,两种正则有什么区别?该如何选择?

L1正则和L2正则是基于惩罚项的特征选择方法,用于在模型训练过程中对模型的系数进行惩罚,从而实现特征选择的效果。这两者的区别主要体现在惩罚的形式和对模型的影响上。

L1正则(Lasso Regression):

  1. 惩罚形式:L1正则通过在模型的损失函数中添加系数绝对值的和(L1范数),即 (||\beta||_1),来对模型进行惩罚。

  2. 特点:L1正则倾向于产生稀疏权重,即将某些特征的系数变为零,从而实现特征选择的效果。因此,L1正则可以用于特征选择,帮助剔除对目标变量贡献较小的特征。

  3. 适用场景:当数据集具有冗余特征或者特征之间存在较强相关性时,L1正则通常较为有效。

L2正则(Ridge Regression):

  1. 惩罚形式:L2正则通过在模型的损失函数中添加系数平方的和(L2范数),即 (||\beta||_2^2),来对模型进行惩罚。

  2. 特点:L2正则对权重的惩罚是连续的,倾向于让所有特征的权重都趋近于零,但很少变为零。它不太容易产生稀疏解,相比于L1正则,L2正则更倾向于保留所有特征。

  3. 适用场景:当数据集中的特征对目标变量的贡献相对均衡,不存在强烈的特征选择需求时,L2正则通常较为适用。

如何选择:

  • L1 vs. L2:选择L1还是L2正则通常取决于具体问题和数据的性质。如果希望在模型中进行特征选择,使得一些特征的权重变为零,可以尝试使用L1正则。如果更关注模型整体的性能,而不太关心特征的稀疏性,可以尝试使用L2正则。

  • 弹性网(Elastic Net):有时也可以考虑使用弹性网,它是L1和L2正则的结合,同时考虑了两者的惩罚项。弹性网在L1和L2之间提供了权衡,并且可以在某些情况下更稳健。

  • 调参:正则化项的强度(alpha)是需要调优的超参数。可以通过交叉验证等方法来选择适当的正则化强度。

综合来说,L1和L2正则是在特征选择中经常使用的方法,选择哪一种通常取决于具体的问题和数据集。

3、整个特征工程分为几个部分,每个部分包含哪些内容

特征工程是机器学习和数据分析中至关重要的一部分,它包括了多个阶段,每个阶段都有不同的任务和技术。通常,特征工程可以分为以下几个主要部分:

  1. 数据清理(Data Cleaning)

    • 缺失值处理:填充或删除缺失值。
    • 异常值处理:检测和处理异常值。
    • 重复值处理:识别和处理数据中的重复样本。
  2. 数据预处理(Data Preprocessing)

    • 数据标准化/归一化:确保不同特征具有相同的尺度。
    • 数据编码:将非数值型数据转换为数值型,如独热编码。
    • 特征缩放:将数值型数据缩放到一定范围,例如使用Min-Max缩放或标准化(Z-score标准化)。
    • 处理时间序列数据:提取时间特征,平滑或填充缺失时间点。
  3. 特征选择(Feature Selection)

    • 过滤式选择:基于统计检验或相关性的方法选择特征。
    • 包裹式选择:使用机器学习模型来评估不同特征子集的性能。
    • 嵌入式选择:在模型训练过程中直接选择特征,如L1正则化。
  4. 特征构造(Feature Engineering)

    • 多项式特征:创建新的特征,例如将两个特征的交叉项作为新特征。
    • 数值变换:对数变换、指数变换等。
    • 时间特征:从日期时间数据中提取季节、月份、星期等信息。
    • 文本特征处理:词袋模型、TF-IDF等方法处理文本数据。
  5. 降维(Dimensionality Reduction)

    • 主成分分析(PCA):通过线性变换将原始特征转化为一组线性无关的新特征,以减少维度。
    • t-SNE:用于可视化高维数据的非线性降维方法。
  6. 数据分割与抽样(Data Splitting and Sampling)

    • 训练集、验证集、测试集划分:将数据划分为训练、验证和测试集,以评估模型性能。
    • 过采样与欠采样:处理类别不平衡问题,如SMOTE、RandomUnderSampler等。
  7. 特征交叉(Feature Cross)

    • 结合不同特征:创建新特征,例如将两个特征的组合作为新特征。
  8. 特征重要性分析(Feature Importance Analysis)

    • 利用模型:通过训练模型后分析特征的重要性,如决策树、随机森林等。
    • 统计方法:使用统计方法(例如方差分析)评估特征的重要性。

总体而言,特征工程是一个迭代的过程,需要不断尝试和优化。不同的问题和数据可能需要不同的特征工程方法。

4、在数据清洗的过程中,应该如何选择异常值的处理方式

处理异常值时,选择合适的方式取决于数据的性质、异常值的原因以及对问题的影响。以下是一些常见的异常值处理方式:

  1. 删除异常值(Remove Outliers)

    • 优点:简单直接,不影响数据的整体分布。
    • 缺点:可能会丢失一些重要信息,特别是在数据集较小的情况下。
  2. 截断(Truncate)或修剪(Winsorize)

    • 截断:将超过一定阈值的数值设置为该阈值。
    • 修剪:将超过一定分位数的数值替换为该分位数的值。
    • 优点:保留数据的整体分布,减少了极端值的影响。
    • 缺点:可能会引入一些偏差,但相比于删除异常值更保守。
  3. 替换异常值(Impute)

    • 均值/中位数/众数替换:使用数据的均值、中位数或众数替换异常值。
    • 插值法:根据相邻数据的插值来替换异常值。
    • 模型预测:使用其他特征来预测异常值。
    • 优点:保留了数据的整体趋势。
    • 缺点:可能会引入噪音,特别是在异常值较多或模型不准确时。
  4. 离散化(Binning)

    • 将连续型数据分组为离散的区间,将异常值放入合适的区间。
    • 优点:降低了异常值的影响,将其转化为离散的特征。
    • 缺点:可能丢失一些连续性信息。
  5. 使用专门的模型

    • 使用异常检测模型,例如孤立森林(Isolation Forest)、One-Class SVM等,来识别和处理异常值。
    • 优点:能够更精确地识别异常值。
    • 缺点:需要训练额外的模型,可能对计算资源要求较高。

在选择异常值处理方式时,需要根据具体情况综合考虑数据的分布、业务背景、数据量和模型对异常值的敏感程度。通常,可以通过观察处理前后的模型性能变化来选择合适的方式。特别是在异常值可能包含重要信息的情况下,谨慎处理以避免损失有价值的信息。

5、count、nuique、ratio三种统计特征的含义

这三种统计特征分别表示了数据中的计数、唯一值数量以及唯一值的比例。它们通常用于对数据的基本统计性质进行描述和特征工程。

  1. Count(计数)

    • 含义:Count表示数据中某个特征或某个特定条件的样本数量。
    • 计算方法:对于某一特征或条件,计算数据中满足条件的样本数量。
  2. Unique(唯一值数量)

    • 含义:Unique表示数据中不同的唯一值的数量,即数据中有多少种不同的取值。
    • 计算方法:对于某一特征,计算该特征中不同取值的数量。
  3. Ratio(比例)

    • 含义:Ratio表示唯一值在整体样本中的比例,即唯一值的数量占总样本数量的比例。
    • 计算方法:用Unique除以Count,然后乘以100,得到唯一值在整体样本中的百分比。

这些统计特征通常用于以下场景:

  • 特征工程:可以作为新的特征引入到模型中,帮助模型更好地理解数据的分布。
  • 数据探索:用于初步了解数据的基本统计性质,发现数据中的规律和特点。
  • 识别重要特征:在特征选择阶段,可以考虑使用这些统计特征来评估特征的重要性。

举例说明:

假设有一个特征表示某个城市中每个用户的性别,可以使用这三种统计特征:

  • Count(计数):计算该城市中用户的总数量。
  • Unique(唯一值数量):计算该城市中不同性别的用户数量。
  • Ratio(比例):计算不同性别的用户数量占总用户数量的比例。

这样的统计特征有助于更全面地了解该城市中用户性别的分布情况。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值