数据分析——探索性分析

最新推荐文章于 2023-11-11 09:59:55 发布

Mayumi_yumi

最新推荐文章于 2023-11-11 09:59:55 发布

阅读量604

点赞数 1

分类专栏：数据分析文章标签：数据分析 python

本文链接：https://blog.csdn.net/lc960928/article/details/108050997

版权

本文是数据分析学习的第一章，主要涵盖数据加载、Pandas基础操作和探索性数据分析。通过kaggle的Titanic数据集，介绍了如何使用Pandas加载数据、查看数据基本信息、处理空值，以及进行数据排序、筛选、描述性统计分析等操作。

摘要由CSDN通过智能技术生成

由Datawhale组织的数据分析学习分为三个章节：

1.数据加载，Pandas基础与探索性数据分析；
2.数据清洗及特征处理，数据重构，数据可视化；
3.模型搭建，模型评估。

本篇文章为数据分析第一章的学习笔记，数据来源于kaggle竞赛的Titanic数据，记录笔记以备复习参考。

一、数据加载

1.1. 载入数据

1.1.1 导入numpy和pandas

import numpy as np
import pandas as pd
import os

1.1.2 载入数据

#df=pd.read_csv('train.csv')  #相对路径
#df.head(3)
os.getcwd() #由于相对路径运行失败，故查找其当前工作目录，发现只有把train.csv用在desktop下才能正常运行，故使用下面的绝对路径

df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv') 
df.head(3) #只输出三行

输出结果

1.1.3 逐块读取数据模块

chunker=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',chunksize=1000)

分块读取可以减少内存、IO的消耗，提高效率

1.1.4 修改表头语言类型，设置索引列

df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)#header=0是从乘客ID第0个的下一个开始
df.head() #第一行看作列名

在这里插入图片描述

将表头改为中文，有利于表格以我们更熟悉的方式显示

1.2.初步观察

初步观察表格数据的基本信息，有利于后续的探索性研究。

1.2.1 查看数据基本信息

df.info()

在这里插入图片描述

1.2.2 查看前后指定行数的数据

df.head(10)

在这里插入图片描述

df.tail(15)

在这里插入图片描述

1.2.3 判断数据是否有空值

df.isnull().head()

在这里插入图片描述客舱列存在空值

1.3.保存数据

df.to_csv('train_chinese.csv')

二、Pandas基础

2.1.找到数据集并花式查看

2.1.1 DataFrame与Series数据类型

先举个小例子：

import numpy as np
import pandas as pd
sdata={
   'Ohio':35000,"Texas":71000,'Oregon':16000,'Utah':5000}
example_1=pd.Series(sdata)  #时间序列数据
example_1