课时3. 组合特征与特征转化
一、统计及组合特征
组合特征是指将原始特征进行组合,生成新的特征。通过组合不同的特征,可以发现特征之间的关联性,提高模型的表现。
常见的组合特征包括特征相加、相乘、相除、取平均值等操作。通过合理地组合特征,可以提高模型的泛化能力和预测准确度。
综合利用业务的统计特征和组合特征可以帮助我们更好地挖掘数据的潜在信息,提高模型的性能和效果。在特征工程的过程中,需要根据具体的问题和数据特点来选择合适的统计特征和组合特征,从而提高模型的预测能力。
1. 统计特征
加减平均、分位数、次序型、比例类
2. 业务特征
规则、数据清洗、用户维度统计特征、商品维度统计特征、时间型
3. 组合特征
简单特征组合、模型特征组合
二、特征变换
1. 对数变换:np.log2()
2. 指数变换:np.exp()
3. BOX-COX变换
from scipy.stats import boxcox
boxcox_features = boxcox(df['A'])
boxcox_features[0]