Kaggle泰坦尼克号 —— task01

本文介绍了Kaggle泰坦尼克号项目的数据加载、探索性数据分析(EDA)过程,包括数据的加载、缺失值处理、以及一些基本统计分析。作者通过分析数据的分布和缺失值,为后续的机器学习模型建立做准备。
摘要由CSDN通过智能技术生成

数据加载及探索性数据分析

数据及背景:
从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic
在这次项目中,先在Kaggle上下载所需要的训练数据集和测试数据集,通过训练数据集分析什么类型的人能在这场灾难中生存下来,建立机器学习的模型,再使用这个模型预测测试数据集中所有人的生存情况。

本次项目属于一个典型的二分分类问题,可以采用逻辑回归的方法建立机器学习模型。

数据加载

有两种方法:pd.read_csv(),pd.read_table()

pd.read_csv():读取以‘,’分割的文件到DataFrame,用于读取csv文件(csv用逗号符分隔字符段)
pd.read_table():读取以‘\t’分割的文件到DataFrame,用于读取tsv文件(tsv用制表符分隔字符段)

实质上两个方法都是通用的,函数中参数sep可以选定分隔符的类型

  1. 导入numpy、pandas和matplotlib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
  1. 载入数据
data_path = 'C:/Users/87569/Desktop/Titanic/'	#设置数据集路径
train_data = pd.read_csv(data_path + 'train.csv',delimiter = ',')
test_data = pd.read_csv(data_path + 'test.csv',delimiter = ',')
  1. 简略观察数据情况

    对应的数据名称在这里插入图片描述

    train_data.info()
    

    在这里插入图片描述
    info()熟悉数据类型
    通过info()来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常。也能观察到数据的shape,例如图中可以看见数据为891行,12列。

    train_data.sample(10)		#随机抽取10行数据展示
    

    在这里插入图片描述

    train_data.describe()
    

    在这里插入图片描述
    describe()熟悉相关统计量
    describe()中包含每列的统计量,个数(count)、平均值(mean)、方差(std)、最小值(min)、中位数(25% 50% 75%)、最大值(max)等。通过观察以上指标,可以瞬间掌握数据的大概范围和每个值的异常值的判断 。

分块读取

chunker = pd.read_csv('train.csv', chunksize=10) 	#逐块读取

read_csv()中有参数chunksize可以逐块读取数据,chunksize=10时就是每10

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值