文章目录
前言
本文主要介绍了针对初学者轻松战胜Kaggle的方法,包括数据科学流程和泰坦尼克号预测案例。
一、数据科学流程
1.EDA(Exploratory Data Analysis)
-
载入数据:pandas
-
可视化:matplotlib、seaborn
可以查看https://www.kaggle.com/benhamner/python-data-visualizations。
-
查看目标变量的分布:当分布不平衡时,根据评分标准和具体模型的使用不同,可能会严重影响性能。
-
对Numerical Variable,可以用Box Plot来直观地查看它的分布。
-
对于坐标类数据,可以用Scatter Plot来查看它们的分布趋势和是否有离群点的存在。
-
对于分类问题,将数据根据Label的不同着不同的颜色绘制出来,这对Feature的构造很有帮助。
-
绘制变量之间两两的分布和相关度图表。
-
2.Data Preprocessing
-
有时数据会分