数据分析——泰坦尼克号乘客数据集

这篇博客介绍了如何使用Pandas进行泰坦尼克号数据集的读取、基本信息查看、数据处理和分析。内容包括利用pd.read_csv读取数据,分块读取大文件,修改数据表头,检查空值,以及数据的基本统计信息。此外,还展示了如何选择和筛选数据,以及对数据进行排序和基本统计计算。通过这些操作,为后续的数据分析打下基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析——泰坦尼克号数据集(一)

泰坦尼克号乘客数据:https://www.kaggle.com/c/titanic/overview
Datawhale开源课程:https://github.com/datawhalechina/hands-on-data-analysis

一、数据载入以及初步观察

1.1. 导入库

import numpy as np
import pandas as pd

1.2. pd.read_csv和pd.read_table读取

# pd.read_csv()
data = pd.read_csv('train.csv')
data0 = pd.read_csv('E:/MyPython/train.csv')
# pd.read_table()读取
data1 = pd.read_table('train.cav',sep = ',') # read_table默认分隔符是‘\t’

1.3. chunk分块读取

chunker = pd.read_csv('train.csv', chunksize=1000)
#读取方式一
chunker.get_chunk()
#读取方式二
for chunk in chunker:
    print(chunk)

1.4. 修改数据表头

# 将表头改成中文,索引改为乘客ID
data 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值