非常简略的整理下在做特征工程我针对不同数据会采用的一些常规流程,不做具体介绍。
结构化数据
离散数值、连续数值、日期
非结构化数据
文本、网络关系节点
一.数值特征
1. 预处理
2. 离散值处理
labelEncoder / map / one-hot-encoding / get_dummy
特征交叉
二值特征转换
类别合并
多项式特征(模型用SVM)
3. 连续特征离散化
binning
分位数切分
4. 对数变换(模拟正态分布)
二.日期特征
ts_objs = np.array([pd.Timestamp(item) for item in np.array(df.Time)])
转换成