其实,泰坦尼克的预测案例网上有很多,只是那些都没有自己亲手去做,大致看了一下思路,毕竟这是自己的第一个实战项目,很有必要记录下来, 待以后学的更深的时候,看能不能改进模型的准确率。好了,废话不多说了。开始吧。
一、关于泰坦尼克号之灾
泰坦尼克号的这个实战案例来自kaggle,上面是它的基本介绍情况。
二、很重要的经验
- 『对数据的认识太重要了!』
- 『数据中的特殊点/离群点的分析和处理太重要了!』
- 『特征工程(feature engineering)太重要了!在很多Kaggle的场景下,甚至比model本身还要重要』
- 『要做模型融合(model ensemble)!』
三、实战项目
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
step1:数据理解和探索