对titanic.csv数据进行预测生死

最新推荐文章于 2021-10-27 20:41:39 发布

laymenISmouse

最新推荐文章于 2021-10-27 20:41:39 发布

阅读量3k

点赞数 1

分类专栏：机器学习 Python 文章标签： python

本文链接：https://blog.csdn.net/u010343650/article/details/72362250

版权

这篇博客介绍了一次使用Python对titanic.csv数据集进行生存预测的实践，目标变量为'survived'，通过分析乘客的pclass、sex、age等特征，模型的预测准确率在60%至70%之间。

摘要由CSDN通过智能技术生成

数据集：http://download.csdn.net/detail/u010343650/9844427

survived:乘客最后的生存情况，这个是我们预测的目标变量（0代表否，1代表是）

pclass:社会经济地位（1代表上层阶级，2代表中层阶级，3代表底层阶级）

name:姓名

sex:性别

age:年纪

sibsp:船上兄弟姐妹或者配偶的数

parch:船上父母或者孩子的数量

ticket:船票的号码

fare:船票价格

检查数据的完整性

    # coding:GBK  
    __author__ = 'Mouse'  
    import pandas as pd  
    full_data = pd.read_csv('titanic_dataset.csv')  
    print full_data.info()

结果显示数据很完整：

代码一：正确率60%-70%之间

# coding:GBK
__author__ = 'Mouse'
import sys
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
reload(sys)
sys.setdefaultencoding('utf8')
from sklearn_test import *

def read_data(data_file):
    data = pd.read_csv(data_file)
    data = data.drop('ticket', axis=1) #删除票信息
    data = data.drop('name', axis=1) #删除姓名

    #one-hot编码
    le_sex = LabelEnc