项目目的:预测客户的交易价值
数据来源:https://www.kaggle.com/c/santander-value-prediction-challenge
数据内容:4459条已知客户的交易价值和客户的属性(具体内容不知道,有可能是性别、年龄、收入、交税等等,每一个用户有4993条属性)
步骤:
- 数据分析
- 特征值选取
- 模型建立
- 调试
首先进行数据分析
有4459行,4993列,其实中1845列为float类型,3147列为int类型,有1列为object(应该为用户id)
观察发现特征值数量较大
初步处理:去掉常数列,去掉重复列
数据由4993变为4732
由于特征值太多,难以作图分析
直接使用所有特征值
对需要预测值分析,观察数据分布(下图左),大部分数据集中在左侧,做log处理使数据更符合高斯分布&#