实例目标:实现泰坦尼克存活预测
- 输入数据:使用Pandas读取训练数据(历史数据,特点是已经知道了这个人最后有没有活下来)
- 训练模型:使用Sklearn训练模型
- 使用模型:对于一个新的不知道存活的人,预估他存活的概率
import pandas as pd
df_train = pd.read_csv("./datas/titanic/titanic_train.csv")
df_train.head()
feature_cols = ['Pclass', 'Parch']
X = df_train.loc[:, feature_cols]
X.head()
y = df_train.Survived
y.head()
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(X, y)
logreg.score(X, y)
X.drop_duplicates().sort_values(by=["Pclass", "Parch"])
logreg.predict([[2, 4]])
logreg.predict_proba([[2, 4]])