机器学习系列之特征工程

数据的特征选择

数据特征主要分为两部分,一部分是业务已经整理好的各种特征数据;另一部分是根据业务特征去构造的数据特征。

特征选择的方法

一、已有特征

1.过滤法选择特征:

方差越小,不同样本的特征值越相似,此特征作用越小;

各个特征与输出值间的相关系数,选择相关系数较大的部分特征;

假设检验,如卡方检验、F检验、t检验;

互信息,信息增益。

2.包装法选择特征

最常用的包装法是递归消除特征法(recursive feature elimination,以下简称RFE)。递归消除特征法使用一个机器学习模型来进行多轮训练,每轮训练后,消除若干权值系数的对应的特征,再基于新的特征集进行下一轮训练。在sklearn中,可以使用RFE函数来选择特征。

3.嵌入法选择特征

嵌入法也是用机器学习的方法来选择特征,但是它和RFE的区别是它不是通过不停的筛掉特征来进行训练,而是使用的都是特征全集。在sklearn中,使用SelectFromModel函数来选择特征。

最常用的是使用L1正则化和L2正则化来选择特征。在之前讲到的用scikit-learn和pandas学习Ridge回归第6节中,我们讲到正则化惩罚项越大,那么模型的系数就会越小。当正则化惩罚项大到一定的程度的时候,部分特征系数会变成0,当正则化惩罚项继续增大到一定程度时,所有的特征系数都会趋于0. 但是我们会发现一部分特征系数会更容易先变成0,这部分系数就是可以筛掉的。也就是说,我们选择特征系数较大的特征。常用的L1正则化和L2正则化来选择特征的基学习器是逻辑回归。

此外也可以使用决策树或者GBDT。那么是不是所有的机器学习方法都可以作为嵌入法的基学习器呢?也不是,一般来说,可以得到特征系数coef或者可以得到特征重要度(feature importances)的算法才可以做为嵌入法的基学习器。

二、高级特征

寻找高级特征最常用的方法有:

    若干项特征加和: 我们假设你希望根据每日销售额得到一周销售额的特征。你可以将最近的7天的销售额相加得到。
    若干项特征之差: 假设你已经拥有每周销售额以及每月销售额两项特征,可以求一周前一月内的销售额。
    若干项特征乘积: 假设你有商品价格和商品销量的特征,那么就可以得到销售额的特征。
    若干项特征除商: 假设你有每个用户的销售额和购买的商品件数,那么就是得到该用户平均每件商品的销售额。

参考自:

https://www.cnblogs.com/pinard/p/9032759.html

https://segmentfault.com/a/1190000003719712

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
特征工程是指在机器学习中,通过对原始数据进行转换、选择、提取和创造特征,从而帮助算法更好地理解数据和实现更好的性能。小白学习Spark的机器学习中的特征工程有以下几个方面的内容。 首先,特征选择是特征工程的重要一环。在特征选择中,我们通过方法如相关性分析、方差分析或者特征重要性评估等方法,选择对目标结果有较强相关性的特征集合。Spark提供了丰富的特征选择工具,如ChiSqSelector和VectorIndexer等,可以方便地进行特征选择。 其次,特征提取是另一个重要的特征工程步骤。特征提取是将原始数据转化为特征向量的过程,可应用于文本、图像和音频等数据。Spark提供了一系列特征提取器,如Word2Vec、CountVectorizer和TF-IDF等,用于从文本数据中提取特征。 此外,特征转换也是特征工程的关键步骤之一。特征转换的目的是对原始特征进行转换,使其更好地符合机器学习算法的需求。在Spark中,可以使用特征转换器,如MinMaxScaler、StandardScaler和OneHotEncoder等,对特征进行缩放、标准化和编码等操作。 还有一些其他的特征工程技术也适用于Spark的机器学习。比如,特征构建可以通过组合、拆分、合并原始特征,创造出新的特征来丰富数据表达能力。此外, 缺失值处理、离散化和降维等也属于特征工程的一部分。 总之,特征工程在Spark的机器学习中起着重要的作用,能够提高模型的准确性和性能。小白在学习Spark的机器学习过程中应该充分了解和掌握特征工程的各个方面,以便能够在实际应用中灵活运用,提升机器学习的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值