-
特征间共线性:
两个或多个特征包含了相似的信息,期间存在强烈的相关关系 -
常用判断标准:
两个或两个以上的特征间的相关性系数高于0.8。 -
共线性的影响:
- 降低运算效率
- 降低一些模型的稳定性
- 弱化一些模型的预测能力
-
处理方式:
- 删除:一组相互共线的特征中只保留与y相关性最高的一个
- 变换:对共线的两列特征进行求比值、求差值等计算
# 特征工程的演示
import pandas as pd
import matplotlib.pyplot as plt
# 样例数据读取
df = pd.read_excel('realestate_sample_