![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征工程
文章平均质量分 86
写代码的老教授
愿能有人与你立黄昏,有人问你粥可温。
展开
-
用Python实现特征工程之特征分桶(Feature Binning)详解
自定义分桶允许用户根据特定的业务需求,手动定义分桶的边界。它灵活性较高,适合处理具有明确业务含义的特征。# 自定义分桶print(df)0 22 Young1 25 Young解释[0, 25)[25, 50)和[50, 100],每个区间被赋予特定的标签(YoungSenior特征分桶是一种简单而有效的特征工程技术,能够将连续数值特征转换为离散类别特征,从而简化模型、减少噪声、提高模型的鲁棒性和可解释性。原创 2024-08-13 09:15:00 · 771 阅读 · 0 评论 -
用Python实现特征工程之自动特征工程(Automated Feature Engineering)详解
自动特征工程是使用自动化工具或算法从原始数据中生成特征的过程。这些工具能够自动识别数据中的模式,生成大量有潜在意义的特征,而不需要大量的人工干预。这不仅加快了特征工程的速度,还能生成一些人类可能未曾想到的复杂特征。多表关联数据:如数据库中的多张表之间的关系。高维数据:如时间序列、文本、图像等。复杂的交互特征:如跨越多层关系的嵌套特征。FeatureTools允许用户定义自定义的特征生成函数,满足特定的业务需求。# 自定义函数:计算方差# 使用自定义特征生成函数解释自定义的Variance。原创 2024-08-12 09:15:00 · 595 阅读 · 0 评论 -
用Python实现特征工程之时间序列特征工程详解
差分是时间序列分析中的一种基本方法,它通过计算相邻时间点之间的差值来去除时间序列中的趋势成分,从而使时间序列变得平稳。这对许多模型来说至关重要,因为它们假设输入数据是平稳的。滑动窗口是一种常用的时间序列特征工程技术,它通过创建一个固定大小的窗口,在时间序列数据上滑动,以捕捉局部的时间特性。滑动窗口技术特别适用于捕捉短期趋势、模式或异常。时间滞后特征是指使用前一时间点或前多个时间点的值作为当前时间点的特征。时间滞后特征是捕捉时间序列数据中自相关性的重要方法。原创 2024-08-12 09:00:00 · 575 阅读 · 0 评论 -
用Python实现特征工程之特征嵌入(Feature Embedding)详解
特征嵌入是一种将高维稀疏特征转换为低维稠密向量的技术。这种技术特别适用于处理高维数据,如文本、图像或图结构数据。通过嵌入方法,稀疏的高维特征被压缩到一个低维的连续向量空间,使得这些特征在机器学习模型中可以更好地表示和处理。自然语言处理(NLP):在NLP中,特征嵌入如Word2Vec、GloVe、FastText等可以将词汇或短语表示为稠密向量,用于情感分析、机器翻译、信息检索等任务。图像处理:通过深度学习模型(如CNN)提取图像嵌入,用于分类、检索或生成任务。图数据分析。原创 2024-08-11 20:33:24 · 650 阅读 · 0 评论 -
用Python实现特征工程之高阶交互特征详解
高阶交互特征是通过对原始特征进行组合、交叉等操作生成的新特征。它们通常是两个或多个原始特征的乘积、和、差或其他非线性组合。高阶交互特征可以捕捉到原始特征之间的复杂非线性关系,这在使用线性模型时尤其重要,因为线性模型本身无法直接捕捉到这些复杂关系。通过生成高阶交互特征,我们能够增强线性回归模型的表现力,使其能够捕捉到特征之间的非线性关系。实践证明,这些特征对模型的预测能力有显著的提升。原创 2024-08-10 20:53:17 · 763 阅读 · 0 评论 -
用Python实现特征工程之特征变换——数值特征的归一化和标准化、类别特征的编码、特征组合和分解、特征缩放
归一化和标准化是数值特征变换中的常用方法,可以使特征更适合用于模型训练。类别特征编码通过将类别数据转换为数值数据,使模型能够理解类别特征。特征组合和分解通过生成新的特征或分解复杂特征来增加模型的表达能力。特征缩放通过调整特征的比例,使其更适合于模型训练,特别是在应用梯度下降等算法时。这些特征变换方法在特定的场景下能够显著提高模型的性能,是特征工程中不可忽视的重要步骤。原创 2024-08-09 21:07:56 · 844 阅读 · 0 评论 -
用Python实现特征工程之特征提取——数值特征提取、类别特征提取、文本特征提取、时间特征提取
特征提取是特征工程中的关键步骤,它从原始数据中提取有意义的特征,以便机器学习模型能够更好地理解和学习数据。根据数据类型,特征提取可以分为数值特征提取、类别特征提取、文本特征提取和时间特征提取。下面详细讲解每种特征提取方法,并提供相应的Python代码示例。原创 2024-08-08 21:57:01 · 541 阅读 · 0 评论 -
用Python实现特征工程之特征选择——过滤法、包装法、嵌入法
选择合适的特征选择方法取决于数据集的规模、特征数量、计算资源以及具体的应用场景。一般情况下,可以先使用过滤法进行初步筛选,再结合包装法或嵌入法进行更精细的特征选择,以优化模型性能。原创 2024-08-08 21:39:13 · 596 阅读 · 0 评论 -
Python代码之特征工程基础
特征工程是指从原始数据中提取、转换和创建适合于模型训练的数据特征的过程。它是机器学习和深度学习中非常重要的一步,因为好的特征工程可以显著提高模型的性能。特征工程涉及从数据中提取有意义的信息,并将其转换为模型可以理解和使用的格式。常见的特征工程步骤包括数据清洗、特征选择、特征提取和特征变换。原创 2024-08-07 22:44:52 · 353 阅读 · 0 评论