Sklearn实现泰坦尼克存活率预测

最新推荐文章于 2023-10-14 21:23:37 发布

聪少少灬

最新推荐文章于 2023-10-14 21:23:37 发布

阅读量191

点赞数

分类专栏：机器学习数据分析 Python 文章标签：数据挖掘机器学习深度学习

本文链接：https://blog.csdn.net/sGDUTBMW/article/details/110928467

版权

Python 同时被 3 个专栏收录

52 篇文章 0 订阅

订阅专栏

数据分析

11 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

实例目标：实现泰坦尼克存活预测

处理步骤：

输入数据：使用Pandas读取训练数据(历史数据，特点是已经知道了这个人最后有没有活下来)
训练模型：使用Sklearn训练模型
使用模型：对于一个新的不知道存活的人，预估他存活的概率

# 步骤1：读取训练数据
import pandas as pd

df_train = pd.read_csv("./datas/titanic/titanic_train.csv")
df_train.head()

# 我们只挑选两列，作为预测需要的特征
feature_cols = ['Pclass', 'Parch']
X = df_train.loc[:, feature_cols]
X.head()

# 单独提取是否存活的列，作为预测的目标
y = df_train.Survived
y.head()


# 步骤2：训练模型
from sklearn.linear_model import LogisticRegression
# 创建模型对象
logreg = LogisticRegression()

# 实现模型训练
logreg.fit(X, y)

logreg.score(X, y)	# 0.6879910213243546


# 步骤3：对于未知数据使用模型
# 找一个历史数据中不存在的数据
X.drop_duplicates().sort_values(by=["Pclass", "Parch"])
# 预测这个数据存活的概率
logreg.predict([[2, 4]])	# array([1])
logreg.predict_proba([[2, 4]])	# array([[0.35053893, 0.64946107]])