Task205:模型搭建和模型评估

最新推荐文章于 2021-07-21 23:52:47 发布

VickuTT

最新推荐文章于 2021-07-21 23:52:47 发布

阅读量199

点赞数

分类专栏：动手数据分析

本文链接：https://blog.csdn.net/VickuTT/article/details/108254267

版权

动手数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

思维导图

在这里插入图片描述

代码

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
#from Ipython.display import Image


train=pd.read_csv('D:\\pythondata\\result.csv')
print(train.shape)
#对缺失值进行填充
train['Cabin']=train['Cabin'].fillna('NA')
train['Embarked']=train['Embarked'].fillna('S')

train['Age']=train['Age'].fillna(train['Age'].mean())
#检查缺失值的比例
print(train.isnull().mean().sort_values(ascending=False))
#可以把分类变量变成0-1形式,虚拟变量的转换
data=train[['Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']]
data=pd.get_dummies(data)
print(data.head(5))

#切割训练集和测试集
from sklearn.model_selection import train_test_split

X=data
y=train['Survived']
X_train,X_test,y_train,y_test=train_test_split(X,y,stratify=y,random_state=0)
print(X_train.shape,X_test.shape)

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
lr=LogisticRegression()
lr.fit(X_train,y_train)
print("Training set score:{:.2f}".format(lr.score(X_train,y_train)))
print("Testing set score:{:.2f}".format(lr.score(X_test,y_test)))

lr2 = LogisticRegression(C=100)
lr2.fit(X_train, y_train)
print("Training set score: {:.2f}".format(lr2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr2.score(X_test, y_test)))

# 默认参数的随机森林分类模型
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
print("Training set score: {:.2f}".format(rfc.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))
# 调整参数后的随机森林分类模型
rfc2 = RandomForestClassifier(n_estimators=100, max_depth=5)
rfc2.fit(X_train, y_train)
print("Training set score: {:.2f}".format(rfc2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc2.score(X_test, y_test)))

# 预测标签
pred = lr.predict(X_train)
# 此时我们可以看到0和1的数组
pred[:10]
# 预测标签概率
pred_proba = lr.predict_proba(X_train)
pred_proba[:10]

VickuTT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task205:模型搭建和模型评估

思维导图代码import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt#from Ipython.display import Imagetrain=pd.read_csv('D:\\pythondata\\result.csv')print(train.shape)#对缺失值进行填充train['Cabin']=train['Cabin'].fillna('NA
复制链接

扫一扫