【数据分析】 Titanic乘客获救预测(1)基础准备

本文是数据分析入门教程,以Titanic乘客数据为例,介绍如何使用Python的pandas库进行数据加载、基础操作及初步分析。讨论了read_csv函数、数据分块、数据结构(Series和DataFrame)、数据删除、条件筛选、查找以及数据排序等关键步骤。
摘要由CSDN通过智能技术生成

1 数据加载

数据分析入门的经典案例啦,数据可在Kaggle上进行下载。 下载地址

1.1 载入数据

  • 数据格式

    一般在进行机器学习算法时,常见的数据格式为csv以及tsv
    csv comma separated values,即“逗号分隔值”
    tsv:tab separated values,即“制表符分隔值”

  • 读取函数

    查看原始数据格式为csv,选择对应的读取函数pd.read_csv()
    read_csv()函数用于读取以’,'分割的文件到DataFrame
    read_table()函数用于读取以’/t’分割的文件到DataFrame
    函数详细解析可参考 官方文档

import pandas as pd
import numpy as np

train_data = pd.read_csv('titanic/titanic_train.csv') #csv数据存储路径
test_data = pd.read_csv('titanic/titanic_test.csv')
print(train_data.head(3)) #head函数获取前3行数据

输出结果如下
在这里插入图片描述

1.2 read_csv()函数

  • 分块处理
    当数据规模非常大时,一次性读取整个csv文件系统内存吃不消,这时可利用read_csv()中的一个参数chunksize来进行分块处理。
# 每2000行为一个数据块,逐块读取
chunker = pd.read_csv('data_train.csv', chunksize=2000)
  • 修改表头
# 查看原始数据的表头
print(data_train.columns)

在这里插入图片描述

# 将表头改为中文方便熟悉数据
data_train = pd.read_csv('titanic/titanic_train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)

在这里插入图片描述

1.3 观察数据

# 查看数据基本信息
print(data_train.info())

# 查看数据前n行/后n行数据
print(data_train.head(10))
print(data_train.tail(10
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值