立即学习:https://edu.csdn.net/course/play/26133/325591?utm_source=blogtoedu
数据与特征工程2
(4)特征工程的一般流程和步骤
1)数值处理与特征增强
缺失值处理:均值、中位数、众数填充
归一化(统一量纲):min-max归一化、分位数归一化、正态分布归一化
2)特征表达与构建
类别特征(离散特征):one-hot编码、TF-IDF编码
数值特征(连续特征):直接使用(可能通过增强)、离散化(分桶)
3)特征选择
基于统计量:方差(选择方差大的)、皮尔森相关系数(两个变量之间的比较)
基于模型:基于线性模型的系数大小、通过添加或者减少特征让模型效果更好
(5)案例:构建特征利用logistic回归做CTR预估
下面是logistic回归模型的公式: