数据分析——探索性分析

本文是数据分析学习的第一章,主要涵盖数据加载、Pandas基础操作和探索性数据分析。通过kaggle的Titanic数据集,介绍了如何使用Pandas加载数据、查看数据基本信息、处理空值,以及进行数据排序、筛选、描述性统计分析等操作。
摘要由CSDN通过智能技术生成

由Datawhale组织的数据分析学习分为三个章节:

1.数据加载,Pandas基础与探索性数据分析;
2.数据清洗及特征处理,数据重构,数据可视化;
3.模型搭建,模型评估。

本篇文章为数据分析第一章的学习笔记,数据来源于kaggle竞赛的Titanic数据,记录笔记以备复习参考。

一、数据加载

1.1. 载入数据

1.1.1 导入numpy和pandas

import numpy as np
import pandas as pd
import os

1.1.2 载入数据

#df=pd.read_csv('train.csv')  #相对路径
#df.head(3)
os.getcwd() #由于相对路径运行失败,故查找其当前工作目录,发现只有把train.csv用在desktop下才能正常运行,故使用下面的绝对路径

df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv') 
df.head(3) #只输出三行

输出结果

1.1.3 逐块读取数据模块

chunker=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',chunksize=1000)

分块读取可以减少内存、IO的消耗,提高效率

1.1.4 修改表头语言类型,设置索引列

df=pd.read_csv('/Users/Administrator/LC python/datawhale/data analysis/unit 1/Titanic-dataset/train.csv',names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)#header=0是从乘客ID第0个的下一个开始
df.head() #第一行看作列名

在这里插入图片描述

将表头改为中文,有利于表格以我们更熟悉的方式显示

1.2.初步观察

初步观察表格数据的基本信息,有利于后续的探索性研究。

1.2.1 查看数据基本信息

df.info()

在这里插入图片描述

1.2.2 查看前后指定行数的数据

df.head(10)

在这里插入图片描述

df.tail(15)

在这里插入图片描述

1.2.3 判断数据是否有空值

df.isnull().head()

在这里插入图片描述客舱列存在空值

1.3.保存数据

df.to_csv('train_chinese.csv')

二、Pandas基础

2.1.找到数据集并花式查看

2.1.1 DataFrame与Series数据类型

先举个小例子:

import numpy as np
import pandas as pd
sdata={
   'Ohio':35000,"Texas":71000,'Oregon':16000,'Utah':5000}
example_1=pd.Series(sdata)  #时间序列数据
example_1

在这里插入图片描述

data={
   'state':
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值