特征工程
文章平均质量分 94
Bigdataxy
分享机器学习,人工智能,大数据,数据挖掘相关知识~
展开
-
数据标准化与归一化 及其区别
介绍了标准化与归一化的基本方法及区别。需要特别注意,除了去除量钢化需要归一化或标准化,还需考虑基于参数的模型或者基于距离的模型,需要对参数或者距离进行计算,都需要进行归一化。原创 2023-02-03 15:59:23 · 3650 阅读 · 0 评论 -
【数据编码】构造虚拟特征变量(OneHotEncode)
使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。原创 2023-02-02 23:05:07 · 652 阅读 · 0 评论 -
【EDA与特征工程】数据探索与特征工程综合指南
本综合指南主要参考《A Comprehensive Guide to Data Exploration》进行编写,用作日常学习。原文中将缺失值插补与异常值处理两大块作为数据探索部分,通过查阅资料及结合数据分析经验,本文将变量识别、单变量分析、双变量分析划为探索性数据分析(EDA) 部分,将缺失值插补、异常值处理、变量转化、特征/变量构造、特征筛选及降维划为特征工程部分。原创 2023-02-02 21:56:58 · 801 阅读 · 0 评论 -
【特征工程】重要特征识别理论(特征筛选)
从众多影响因素中识别出重要因素的过程可以视为一个特征选择过程。在建立机器学习模型进行预测时,输入的特征集会直接影响模型效果,特征太少容易不能全面刻画数据潜在关联,造成模型欠拟合;特征太多时会存在不相关的特征或者特征冗余的情况,甚至出现“维度灾难”,会造成模型精确度无法提升、运行速度慢、过拟合等情况。特征选择是为了从全部特征中找到最优的特征子集,剔除其中不相关或冗余的特征,从而提高模型拟合程度,加快运行速度,同时选取出真正相关的特征简化模型,协助理解数据决策的过程。原创 2023-02-01 16:46:11 · 865 阅读 · 0 评论