泰坦尼克号数据分析 预测建模 准确率测算

目录

本文思路:

1.搜集现有分析代码

https://blog.csdn.net/u013788252/article/details/105528116

2.原文中代码存在不足,对相关库的引入及运行异常没有说明完善,因此,对原代码进行了完善。

(运行环境: jupyter notebook python3)
完善后的完整代码:
下面展示 完整代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
from sklearn.linear_model import LogisticRegressionCV
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.model_selection import train_test_split

path=r'C:\Users\Administrator\Desktop\titanic.csv' #导入数据,此处的数据为完整的数据集,后续会直接将数据集直接划分为训练集和测试集。划分方法为:库sklearn.model_selection 中的 train_test_split。

data = pd.read_csv(path)
data['Survived'].value_counts().plot.pie(autopct='%0.2f%%')
# In[22]:
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()
# In[23]:
data[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()
# In[24]:
# 按照年龄,将乘客划分为儿童、少年、成年和老年,分析四个群体的生还情况
bins = [0, 12, 18, 65, 100]
data['Age_group'] = pd.cut(data['Age'], bins)
by_age = data.groupby('Age_group')['Survived'].mean()
by_age.plot.bar()
# In[25]:
fig, ax = plt.subplots(1, 2, figsize = (18, 8))
sns.violinplot("Pclass", "Age", hue="Survived", data=data, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
# ax[0].set_yticks(range(0, 110, 10))
sns.violinplot("Sex", "Age", hue="Survived", data=data, split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
# ax[1].set_yticks(range(0, 110, 10))
plt.show()
# In[26]:
data.Embarked[data.Embarked.isnull()] = data.Embarked.dropna().mode().values#众数填充 此处完成对于缺失数据的数据清洗

# In[27]:
from sklearn.ensemble import RandomForestRegressor
age_df = data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(data['Age'].notnull())] #选择age不为空的行
age_df_isnull = age_df.loc[(data['Age'].isnull())]
X = age_df_notnull.values[:,1:]
Y = age_df_notnull.values[:,0]
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])
data.loc[data['Age'].isnull(), ['Age']]= predictAges
# In[28]:
df =pd.get_dummies(data)

# In[29]:
x=df.drop('Survived',1)
y=df.Survived
x_train,x_test,y_train,y_test = train_test_split(x, y, test_size=0.2, random_state=0)# 划分数据集,训练集与测试集为8:2

# In[30]:
lr = LogisticRegressionCV(multi_class='ovr',fit_intercept=True, Cs=np.logspace(-2, 2, 20), cv=2, penalty='l2', solver='lbfgs', tol=0.01)
#该函数可能应为最大迭代次数的问题报 警告,默认参数为1000 ,设置为3000时将不再报警告,不处理该参数也能得到最终结果。
re=lr.fit(x_train, y_train)
#输出准确率结果
print("准确率:",lr.score(x_test, y_test))
#准确率: 0.8324022346368715

3.数据分析思路回顾及其他数据分析思路梳理

(截止上一步已完成了建模与准确率测算)
本部分结合参考:https://blog.csdn.net/weixin_43532000/article/details/108086363

分析中用到的相关库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
seed =2020
a.对数据集的维度进行分析,初步了解其特征情况。

PassengerId => 乘客ID
Survived=>是否生存下来
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

b.可对数据情况进行各种分析

如下代码也可查看数据情况: 代码片

### 数据的探索性分析EDA
def _data_info(data,categorical_features):
    print('number of train examples = {}'.format(data.shape[0]))
    print('number of train Shape = {}'.format(data.shape))
    print('Features={}'.format(data.columns))
    print('\n--------输出类别特征的种类--------')
    for i in categorical_features:
        if i in list(data.columns):
            print("train:"+i+":",list(data[i].unique()))
    print('\n--------缺失值--------')
    missing = data.isnull().sum()
    missing = missing[missing > 0]
    print(missing)
    missing.sort_values(inplace=True)
    missing.plot.bar()
    plt.show()
def data_info(data_train,data_test,categorical_features):
    print('--------训练集基本概况--------')
    _data_info(data_train,categorical_features)
    print('\n\n--------测试集基本概况--------')
    _data_info(data_test,categorical_features)

调用函数:

### 调用
data_info(train_df,test_df,['Survived','Pclass','Sex','Cabin','Embarked','SibSp','Parch'])
c.对于已经被拆分为训练集和测试集的,可以通过合并再清洗的方式,简化工作(此处的数据清洗逻辑与上文的清洗逻辑相同,但代码不同,作为思路性研究和学习用)

数据清洗及分析在jupyter notebook中进行,便于观察及分析。

代码如下:

#将数据合并一起处理,添加一个train特征用于区分训练集和测试集
train_df['train'] = 1
test_df['train'] = 0
data_df = pd.concat([train_df,test_df],sort=True).reset_index(drop=True)
## 删除PassengerId特征
data_df.drop('PassengerId',inplace=True,axis=1)
## 非数字的类别特征数字化
from sklearn import preprocessing
ler_sex = preprocessing.LabelEncoder()
ler_sex.fit(data_df['Sex'])
data_df['Sex'] = ler_sex.transform(data_df['Sex'])
### Embarker缺失数量少,使用众值进行填充
data_df['Embarked'].fillna(data_df['Embarked'].mode()[0],inplace=True)
## 填充完Embarker后,先将非数字的类别特征数字化
ler_Embarked = preprocessing.LabelEncoder()
ler_Embarked.fit(data_df['Embarked'])
data_df['Embarked'] = ler_Embarked.transform(data_df['Embarked'])
###Cabin缺失较多,没有很好的填充数据的方法时,将其直接删除。
data_df.drop('Cabin',inplace=True,axis=1)

在该阶段可以自由分析,维度自行选择。最终得到清洗好的集合即可。

d.将集合再拆为两个,再进行模型相关工作即可,思路梳理完毕。
#从data_df得到训练集
train_data = data_df[data_df.train==1]
train_data['Survived'] = train_df['Survived']
train_data.drop('train',axis=1,inplace=True)
#从data_df得到测试训练集
test_data = data_df[data_df.train==0]
test_data.drop(['Survived','train'],axis=1,inplace=True)

4.题外话 :如果想将数据集直接拆分并保存成两个csv文件,可以直接采用下述代码,复职可直接使用。运行环境pycharm, python3

import pandas as pd
#数据切分库是sklearn.model_selection
from sklearn.model_selection import train_test_split
if __name__ == "__main__":
    data = pd.read_csv(r'C:\Users\Administrator\Desktop\titanic.csv')
    #将样本分为x表示特征,y表示类别
    x = data.iloc[:,:-1]
    y = data.iloc[:,-1]
    #测试集为30%,训练集为70%
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)

    print(len(x_train))
    print(len(x_test))
    res_train = pd.concat([x_train, y_train], axis=1, ignore_index=True)
    res_test = pd.concat([x_test, y_test], axis=1, ignore_index=True)
    print(len(res_train))
    print(len(res_test))
    res_train.columns = data.columns
    res_test.columns = data.columns    res_train.to_csv(r'C:\Users\Administrator\Desktop\titanic_train.csv', index=False, header=True)    res_test.to_csv(r'C:\Users\Administrator\Desktop\titanic_test.csv', index=False, header=True)
    #输出训练集与测试集分割结果。
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值