【数据分析】 Titanic乘客获救预测（1）基础准备

最新推荐文章于 2021-06-30 17:14:40 发布

baekii

最新推荐文章于 2021-06-30 17:14:40 发布

阅读量340

点赞数

分类专栏：数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_36977302/article/details/108087174

版权

本文是数据分析入门教程，以Titanic乘客数据为例，介绍如何使用Python的pandas库进行数据加载、基础操作及初步分析。讨论了read_csv函数、数据分块、数据结构（Series和DataFrame）、数据删除、条件筛选、查找以及数据排序等关键步骤。

摘要由CSDN通过智能技术生成

1 数据加载

数据分析入门的经典案例啦，数据可在Kaggle上进行下载。下载地址

1.1 载入数据

数据格式

一般在进行机器学习算法时，常见的数据格式为csv以及tsv
csv comma separated values，即“逗号分隔值”
tsv：tab separated values，即“制表符分隔值”
读取函数

查看原始数据格式为csv，选择对应的读取函数pd.read_csv()
read_csv()函数用于读取以’,'分割的文件到DataFrame
read_table()函数用于读取以’/t’分割的文件到DataFrame
函数详细解析可参考官方文档

import pandas as pd
import numpy as np

train_data = pd.read_csv('titanic/titanic_train.csv') #csv数据存储路径
test_data = pd.read_csv('titanic/titanic_test.csv')

print(train_data.head(3)) #head函数获取前3行数据

输出结果如下
在这里插入图片描述

1.2 read_csv()函数

分块处理
当数据规模非常大时，一次性读取整个csv文件系统内存吃不消，这时可利用read_csv()中的一个参数chunksize来进行分块处理。

# 每2000行为一个数据块，逐块读取
chunker = pd.read_csv('data_train.csv', chunksize=2000)

修改表头

# 查看原始数据的表头
print(data_train.columns)

在这里插入图片描述

# 将表头改为中文方便熟悉数据
data_train = pd.read_csv('titanic/titanic_train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)

在这里插入图片描述

1.3 观察数据

# 查看数据基本信息
print(data_train.info())

# 查看数据前n行/后n行数据
print(data_train.head(10))
print(data_train.tail(10

最低0.47元/天解锁文章

baekii

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数据分析】 Titanic乘客获救预测（1）基础准备

Titanic乘客获救预测（1）1 数据加载1.1 载入数据1.2 read_csv()函数1.3 观察数据1.4 保存数据2 pandas基础2.1 数据结构2.1.1 Series的创建2.1.2 DataFrame的创建2.2 pandas基础操作2.2.1 删除2.2.2 条件筛选2.2.3 查找3 初步数据分析3.1 查看统计数据3.2 排序3.2.1 排序基本方法3.2.2 排序分析DataWhale组队学习之数据分析 2020.081 数据加载数据分析入门的经典案例啦，数据可在Kaggl
复制链接

扫一扫

专栏目录