1 建立模型
1.1 数据导入
train = pd.read_csv('titanic/titanic_train.csv')
data = pd.read_csv('titanic/clear_data.csv')
1.2 模型选择
- 判断数据集最终是进行监督学习还是无监督学习 ,通过我们要完成的任务,以及数据样本量,特征的稀疏性等来决定
- 通常先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型
- 使用机器学习最常用的一个库(sklearn)来完成我们的模型的搭建
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200826120212521.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2OTc3MzAy,size_16,color_FFFFFF,t_70#pic_center)
1.3 建模
1.3.1 切割训练集与测试集
from sklearn.model_selection import train_test_split
X = data.drop(['Survived'],axis=1)
print(data.shape,X.shape)
y = data['Survived']
(891, 19) (891, 18)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
1.3.2 逻辑回归模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train, y_train)
print("训练集score:{:.2f}".format(lr.score(X_train, y_train)))
print("测试集score: {:.2f}".format(lr.score(X_test, y_test)))
训练集score:0.81
测试集score: 0.80