文章大纲 特征工程 1. 衍生变量 2. 变量相关系数 皮尔森相关系数 斯皮尔曼相关系数 使用pandas 对比 3. 分箱处理 4. 变量筛选 参考文献 特征工程 特征工程的主要目的是增大数据的价值 1. 衍生变量 # 衍生变量 # 1. 违约次数总量 featureEngineering_df = dataclean_df.withColumn("AllNumlate",dataclean_df['NumberOfTime30-59DaysPastDueNotWorse']+dataclean_df[