特征工程
jialun0116
浙江工业大学
展开
-
特征工程系列:特征预处理
特征工程系列:特征预处理1. 什么是特征工程2. 数值型特征无量纲化2.1 标准化 z-score StandardScaler2.2 归一化2.2.1 MinMax归一化2.2.2 MaxAbs归一化2.3 正态分布化 Normalization2.4 标准化和归一化对比2.5 归一化和标准化使用的场景3. 数据型特征特征分箱(数据离散化)3.1 无监督分箱法3.1.1 自定义分箱3.1.2 等距分箱 pd.cut()3.1.3 等频分箱 pd.qcut()3.1.4 聚类分箱 \*3.1.5 二值法原创 2020-12-01 21:54:50 · 497 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现
特征工程系列:特征筛选的原理与实现1. 什么是特征工程2. 特征选择的方法2.1 Filter方法 过滤法2.2 Wrapper方法 封装式2.3 Embedded方法 嵌入式3. 特征选择实现3.1 去掉取值变化小的特征 要有区分度3.2 单变量特征选择3.2.1 Pearson相关系数 连续型3.2.2 互信息 和 最大信息系数 MINE 离散型3.2.3 距离相关系数3.2.4 基于学习模型的特征排序 cross_val_score3.2.5 卡方检验 离散型 chi23.3 线性模型与正则化3.原创 2020-11-20 00:27:36 · 1089 阅读 · 0 评论 -
特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)
特征工程系列:数据清洗1.什么是特征工程2. 数据预处理3. 数据清洗拓扑图4. 格式内容清洗5. 逻辑错误清洗6. 异常值清洗6.1 异常值检查方法(3σ原则、箱线图分析)6.1.1 基于统计分析6.1.2 3σ原则6.1.3 箱线图分析6.2 数据光滑处理(分箱、回归)6.3 异常处理方法7. 缺失值清洗(删除、填充、不处理)7.1 数据填充方法(统计量统计、模型预测、插值法填充)7.1.2统计量统计7.1.3 模型预测填充7.1.4 插值法填充7.2 缺失总结1.什么是特征工程特征工程是利用原创 2020-11-03 16:12:05 · 7619 阅读 · 2 评论 -
连续特征和分类特征数据缺失的处理方法
数据缺失 处理方法连续的特征分类的特征利用算法预测缺失值连续的特征缺失比例比较严重 可以考虑舍弃可以考虑使用平均值 中位数 分位数填充算法预测 (利用样本中的其它特征作为 特征值,有缺失的特征作为目标值)分类的特征缺失比例比较严重 可以考虑舍弃把缺失作为单独的分类, 如果之前的数据只有两个分类,那么把缺失考虑进来就变成3个分类算法预测利用算法预测缺失值其它特征和要预测的特征之间是否有联系样本数据是否足够利用算法预测缺失值会引入噪声...原创 2020-11-02 15:33:42 · 1053 阅读 · 0 评论