动手学数据分析-Task01

最新推荐文章于 2024-07-17 09:15:39 发布

Zpz&Trq

最新推荐文章于 2024-07-17 09:15:39 发布

阅读量122

点赞数

文章标签： python

本文链接：https://blog.csdn.net/m0_57142809/article/details/117914541

版权

1 第一章：数据加载

1.1 载入数据

1.1.1 任务一：导入numpy和pandas

import numpy as np
import pandas as pd

1.1.2 任务二：载入数据

(1) 使用相对路径载入数据

df = pd.read_csv('./第一单元项目集合/train.csv')#采用相对路径，避免由于文件位置发生变动造成的问题
print(df.head(3))#读取数据的前三行

运行结果为：

PassengerId	Survived	Pclass	…	Fare	Cabin	Embarked
1	0	3	…	7.2500	NaN	S
2	1	1	…	71.2833	C85	C
3	1	3	…	7.9250	NaN	S

[3 rows x 12 columns]

1.1.3 任务三：每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('./第一单元项目集合/train.csv', chunksize=1000)

1.1.4 任务四：将表头改成中文，索引改为乘客ID [对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据]

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df = pd.read_csv('./第一单元项目集合/train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
print(df.head())

乘客ID	是否幸存	仓位等级	…	客舱	登船港口
1	0	3	…	NaN	S
2	1	1	…	C85	C
3	1	3	…	NaN	S
4	1	1	…	C123	S
5	0	3	…	NaN	S

1.2 初步观察

导入数据后，你可能要对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等

1.2.1 任务一：查看数据的基本信息

print(df.info())

<class ‘pandas.core.frame.DataFrame’>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
# Column Non-Null Count Dtype

0	是否幸存	891	non-null	int64
1	仓位等级	891	non-null	int64
2	姓名	891	non-null	object
3	性别	891	non-null	object
4	年龄	714	non-null	float64
5	兄弟姐妹个数	891	non-null	int64
6	父母子女个数	891	non-null	int64
7	船票信息	891	non-null	object
8	票价	891	non-null	float64
9	客舱	204	non-null	object
10	登船港口	889	non-null	object

dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB
None

1.2.2 任务二：观察表格前10行的数据和后15行的数据

df.head(10)#前10行的数据
df.tail(15)#后15行的数据

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head(3)#打印前三行数据是否为空的结果
print(df.isnull().any())  # 列级别的判断，只要该列有为空或者NA的元素，返回结果为布尔值，为True or Fals
print(df[df.isnull().values==True])#可以只显示存在缺失值的行列，清楚的确定缺失值的位置。

print(df.isnull().sum())#将列中为空的个数统计出来

是否幸存	0
仓位等级	0
姓名	0
性别	0
年龄	177
兄弟姐妹个数	0
父母子女个数	0
船票信息	0
票价	0
客舱	687
登船港口	2

1.3 保存数据

1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

df.to_csv('train_chinese.csv')#保存到当前目录

Zpz&Trq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学数据分析-Task01

1 第一章：数据加载1.1 载入数据1.1.1 任务一：导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二：载入数据(1) 使用相对路径载入数据df = pd.read_csv('./第一单元项目集合/train.csv')#采用相对路径，避免由于文件位置发生变动造成的问题print(df.head(3))#读取数据的前三行运行结果为：PassengerIdSurvivedPclass…FareC
复制链接

扫一扫