【DW组队学习—动手学数据分析】第一章：第一节数据载入及初步观察-课程学习

本文链接：https://blog.csdn.net/sinat_33209811/article/details/126841501

本文是数据分析实战课程的第一章，主要内容包括数据载入、初步观察和保存数据。通过实际操作，学习如何使用numpy和pandas加载数据，如泰坦尼克数据集，了解数据的基本信息，检查空值，并将数据保存为新的CSV文件。

摘要由CSDN通过智能技术生成

复习:这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。
这里有两份资料：
教材《Python for Data Analysis》和 baidu.com &
google.com（善用搜索引擎）

1 第一章：数据载入及初步观察

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一：导入numpy和pandas

#写入代码

import numpy as np
import pandas as pd

【提示】如果加载失败，学会如何在你的python环境下安装numpy和pandas这两个库

1.1.2 任务二：载入数据

(1) 使用相对路径载入数据

#写入代码
pd.read_csv("train.csv").head(5)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

(2) 使用绝对路径载入数据

#写入代码
pd.read_csv("G:/自主学习/动手学数据分析/hands-on-data-analysis-master/第一单元项目集合/train.csv").head(5)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

【VC小注】
在引用路径时，有多种方式
1. 直接引用，即“路径”。此时需将路径中的\换成/，否则报错
2. 原始引用，即r“路径”。此时需将路径中的\换成\，否则报错（该法中\有转义作用）

【提示】相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。

import os
os.getcwd()

'G:\\自主学习\\动手学数据分析\\hands-on-data-analysis-master\\第一单元项目集合'

【思考】知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同，如果想让他们效果一样，需要怎么做？了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集？

pd.read_table("train.csv").head(5)

	PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0	1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/...
1	2,1,1,"Cumings, Mrs. John Bradley (Florence Br...
2	3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,S...
3	4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May ...
4	5,0,3,"Allen, Mr. William Henry",male,35,0,0,3...

可以看到，pd.read_csv()方法中，每一列为一个属性；而pd.read_table()方法中，所有属性合为一列，按照txt文件读取
【问】怎么处理pd.read_table()的结果才能与pd.read_csv()结果一致呢？
【答】运用pd.read_table()方法中的sep参数，该参数指定原数据集中各变量之间的分隔符，默认为tab制表符
本例中属性之间是以，为分割，故可使sep = “,”

pd.read_table("train.csv", sep = ",").head(5)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S