《pandas数据分析》（一）——数据基础操作

最新推荐文章于 2023-03-26 18:08:43 发布

爱读Paper的Toby

最新推荐文章于 2023-03-26 18:08:43 发布

阅读量1.5k

点赞数 3

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_41430142/article/details/119763335

版权

数据分析专栏收录该内容

7 篇文章 4 订阅

订阅专栏

主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。通过正式的数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。

分为三个部分，大致可以分为：数据基础操作，数据清洗与重构，建模和评估。

第一部分：我们获得一个要分析的数据，我要学会如何加载数据，查看数据，然后学习Pandas的一些基础操作，最后开始尝试探索性的数据分析。
第二部分：当我们可以比较熟练的操作数据并认识这个数据之后，我们需要开始数据清洗以及重构，将原始数据变为一个可用好用的数据，为之后放入模型做准备
第三部分：我们根据任务需求不同，要考虑建立什么模型，我们使用流行的sklearn库，建立模型。对于一个模型的好坏，我们是需要评估的，之后我们会评估我们的模型，对模型做优化。

1 数据载入及初步观察

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一：导入numpy和pandas

#写入代码
import pandas as pd 
import numpy as np

【提示】如果加载失败，学会如何在你的python环境下安装numpy和pandas这两个库

1.1.2 任务二：载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

#写入代码
data=pd.read_csv('train.csv')
data.head(5)
#写入代码
data=pd.read_csv(r'C:\Users\87479\Desktop\my_data_analysis\第一章项目集合\train.csv')
data.head(5)

【提示】相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。
【总结】加载的数据是所有工作的第一步，我们的工作会接触到不同的数据格式（eg:.csv;.tsv;.xlsx）,但是加载的方法和思路都是一样的，在以后工作和做项目的过程中，遇到之前没有碰到的问题，要多多查资料，使用googel，了解业务逻辑，明白输入和输出是什么。

1.1.3 任务三：每1000行为一个数据模块，逐块读取

#写入代码
#设置chunksize参数，来控制每次迭代数据的大小
chunker = pd.read_csv("train.csv",chunksize=1000)
for piece in chunker:
    print(type(piece))
    #<class 'pandas.core.frame.DataFrame'>
    print(len(piece))
    #891

【思考】什么是逐块读取？为什么要逐块读取呢？

当我们处理大型文件的时候，读入文件的一个小片段或者按小块遍历文件是比较好的做法

1.1.4 任务四：将表头改成中文，索引改为乘客ID （对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据）

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

#写入代码
data.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存','Pclass':'乘客等级(1/2/3等舱位)',
'Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息',
'Fare':'票价','Cabin':'客舱','Embarked':'登船港口'},inplace=True)
data.head(5)

【思考】所谓将表头改为中文其中一个思路是：将英文列名表头替换成中文。还有其他的方法吗？

1.2 初步观察

导入数据后，你可能要对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等

1.2.1 任务一：查看数据的基本信息

#写入代码

# 查看每列的类型,dataframe的属性dtypes可以返回表示每列数据名称及类型的列表：
print(data.dtypes)

# 获取每列数据的统计特征（eg：总行数，列数据的平均值、标准差，etc）
# 使用：dataframe.describe()即可查看每列数据的
'''
（1）总行数统计count
（2）平均值mean
（3）标准差std
（4）最小值min
（5）25%分位值“25%”
（6）50%分位值“50%”
（7）75%分位值“75%”
（8）最大值max
'''
data.describe()

'''
注意：方法describe()只统计（没有任何参数的情况下）数据类型（numeric-typed数据类型，例如int，float等）列的统计特征，并且会自动NaN值。
如果我们想查看所有列的统计特征（即包括非数据类型的列，例如object类型的列），就需要在describe()方法中添加参数（include = “all”）
'''
data.describe(include='all')

'''
获取指定列的统计学特征
使用如下语句：
dataframe[[‘column1’, ‘column2’, ‘column3’]].describe()
'''
data[['乘客ID','年龄']].describe()

'''
使用方法info（）来查看dataframe的简介描述
使用如下语句：
dataframe.info()
此方法打印有关dataframe的信息，包括索引dtype和列、非空值和内存使用情况。
'''
data.info()

'''
查看数据的行数及列数
通过属性shape，获取数据集的（行数，列数）
'''
print(data.shape)

'''
是否包含null
'''
print(data.isnull())

1.2.2 任务二：观察表格前10行的数据和后15行的数据

#写入代码
data.head(10)

#写入代码
data.tail(15)

1.2.3 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

#写入代码
'''
1、判断数值是否为空，可以用pd.isna,pd.isnull,np.isnan；
2、判断字符串是否为空，可以用pd.isna,pd.isnull；
3、判断时间是否为空，可以用pd.isna,pd.isnull，np.isnat；
4、判断转换类型后的字符串，空值也转换成了字符串nan，所以不能用常规方法判断了，直接判断字符串是否相等即可。
'''
data.isnull().head(20)
# data.isna()

【总结】上面的操作都是数据分析中对于数据本身的观察

1.3 保存数据

1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

#写入代码
#注意：不同的操作系统保存下来可能会有乱码。大家可以加入encoding='GBK' 或者 encoding = 'utf-8'
data.to_csv('train_chinese.csv')
df=pd.read_csv('train_chinese.csv')
df.head(5)

【总结】数据的加载以及入门，接下来就要接触数据本身的运算，我们将主要掌握numpy和pandas在工作和项目场景的运用。

总结： 数据分析的第一步，加载数据我们已经学习完毕了。当数据展现在我们面前的时候，我们所要做的第一步就是认识他，今天我们要学习的就是了解字段含义以及初步观察数据。

2 Pandas基础

1.4 知道你的数据叫什么

我们学习pandas的基础操作，那么上一节通过pandas加载之后的数据，其数据类型是什么呢？

开始前导入numpy和pandas

import numpy as np
import pandas as pd

1.4.1 任务一：pandas中有两个数据类型DateFrame和Series，通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题]

#写入代码
'''
维数	名称	描述
1	Series	带标签的一维同构数组
2	DataFrame	带标签的，大小可变的，二维异构表格
#为什么有多个数据结构？
Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。
'''
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
print(example_1)
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
print(example_2)

1.4.2 任务二：根据上节课的方法载入"train.csv"文件

#写入代码
data=pd.read_csv('train.csv')

1.4.3 任务三：查看DataFrame数据的每列的名称

#写入代码
# 现在有一个dataframe对象df1，查看索引使用使用df1.index，查看列名使用df1.columns，查看所有的值为df1.values。
# print(list(data))
data.columns

1.4.4 任务四：查看"Cabin"这列的所有值[有多种方法]

#写入代码
data['Cabin']
#写入代码
data.Cabin

1.4.5 任务五：加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

经过我们的观察发现一个测试集test_1.csv有一列是多余的，我们需要将这个多余的列删去

#写入代码
data1=pd.read_csv('test_1.csv')
data1.head(5)

#写入代码
del data1['a']
data1.head(5)

【思考】还有其他的删除多余的列的方式吗？

# # 思考回答
# import datacompy


# compare = datacompy.Compare(data, data1)
# # Compare 参数：
# #   df1: 数据框1
# #   df2: 数据框2
# #   join_columns: 指定索引的列名，默认“None”，可以传入数组，比如：['key', 'AdID']
# #   on_index: 是否要开启索引，开启之后不需要指定 join_columns，默认“False”
# #   abs_tol: 绝对公差，默认“0”
# #   rel_tal: 相对公差，默认“0”
# #   df1_name: 报告中数据框1的名字，默认“df1”
# #   df2_name: 报告中数据框2的名字，默认“df2”
# #   ignore_spaces: 是否忽略空格，默认“False”
# #   ignore_case: 是否忽略大小写，默认“False”
 
 
# print(compare.matches()) # 最后判断是否相等，返回 bool
# print(compare.report()) # 打印报告详情，返回 string
# # print(compare.sample_mismatch('用户数')) # 取出不相同的某一列数据，返回 dataframe

1.4.6 任务六：将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

#写入代码
'''
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

这是drop函数的所有参数
labels是指要删除的标签，一个或者是列表形式的多个，axis是指处哪一个轴，columns是指某一列或者多列，level是指等级，针对多重索引的情况，inplaces是否替换原来的dataframe
'''
data.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(5)
# data.head(5)

【思考】对比任务五和任务六，是不是使用了不一样的方法(函数)，如果使用一样的函数如何完成上面的不同的要求呢？

【思考回答】
如果想要完全的删除你的数据结构，使用inplace=True，因为使用inplace就将原数据覆盖了，所以这里只是单纯的隐藏

1.5 筛选的逻辑

表格数据中，最重要的一个功能就是要具有可筛选的能力，选出我所需要的信息，丢弃无用的信息。

下面我们还是用实战来学习pandas这个功能。

1.5.1 任务一：我们以"Age"为筛选条件，显示年龄在10岁以下的乘客信息。

#写入代码
data[data['Age']<10].head(5)

1.5.2 任务二：以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

#写入代码
midage=data[(data['Age']>10) & (data['Age']<50)] #此时的索引已经不连续了，需要重置索引
midage.head(100)

【提示】了解pandas的条件筛选方式以及如何使用交集和并集操作

1.5.3 任务三：将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

#写入代码
'''
此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。

'''
midage = midage.reset_index(drop=True)
midage.head(100)
midage.loc[[100],['Pclass','Sex']]

1.5.4 任务四：使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

#写入代码
midage.loc[[100,105,108],['Pclass','Name','Sex']]
# midage.loc[[100,105,108],'Pclass':'Sex'] #相同写法

1.5.5 任务五：使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

#写入代码
midage.iloc[[100,105,108],[2,3,4]]

【思考】对比iloc和loc的异同

loc函数主要基于行标签和列标签（x_label、y_label）进行索引：使用loc函数，索引的是字符串，前后都要取，是属于“前闭后闭”的情况
iloc函数主要基于行索引和列索引（index，columns）都是从 0 开始：而且，iloc函数索引的数据是int整型，因此是Python默认的前闭后开。注意只能说int型，也就是数字，输入字符的话是会报错的。（注意索引都是默认从0开始的），而且传入的必须是一个列表

总结： 在前面我们已经学习了Pandas基础，知道利用Pandas读取csv数据的增删查改，今天我们要学习的就是探索性数据分析，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。

3 探索性数据分析

开始之前，导入numpy、pandas包和数据

#加载所需的库
import numpy as np
import pandas as pd
#载入之前保存的train_chinese.csv数据，关于泰坦尼克号的任务，我们就使用这个数据
data=pd.read_csv('train_chinese.csv')
data.head(5)

1.6 了解你的数据吗？

1.6.1 任务一：利用Pandas对示例数据进行排序，要求升序

#自己构建一个都为数字的DataFrame数据

'''
我们举了一个例子
pd.DataFrame() ：创建一个DataFrame对象 
np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7
index=[2，1] ：DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c'] ：DataFrame 对象的索引行
'''
data1=np.arange(8).reshape((2,4))
# print(data)
index=[2,1]
columns=['d','a','b','c']
df=pd.DataFrame(data=data1,index=index,columns=columns)
df.head(2)

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

【问题】：大多数时候我们都是想根据列的值来排序,所以将你构建的DataFrame中的数据根据某一列，升序排列

#回答代码
'''
升序排列是把数据从小到大进行排列，而降序排列是把数据从大到小进行排列
DataFrame.sort_values(by, ascending=True, inplace=Flase )

参数说明：
by： 字符串或者List<字符串>，单列排序或者多列排序
ascending：bool或者list,升序还是降序，如果是list对应by的多列  默认为True升序排序，为False降序排序
inplace：是否修改原始的DataFrame
'''
df.sort_values(by='a',ascending=True).head(2)

【总结】下面将不同的排序方式做一个总结

1.让行索引升序排序

#代码
'''
axis=0代表往跨行（down)，而axis=1代表跨列（across)
使用0值表示沿着每一列或行标签/索引值向下执行方法
使用1值表示沿着每一行或者列标签横向执行对应的方法
'''
df.sort_index(axis=0,ascending=True).head(2)

axis的理解

2.让列索引升序排序

#代码
df.sort_index(axis=1,ascending=True).head(2)

3.让列索引降序排序

#代码
df.sort_index(axis=1,ascending=False).head(2)

4.让任选两列数据同时降序排序

#代码
df.sort_values(by=['a','c'],ascending=False).head(2)

1.6.2 任务二：对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列），从这个数据中你可以分析出什么？

#代码
# data.sort_values(by=['年龄','票价'],ascending=False).head(20)
data.sort_values(by=['票价', '年龄'], ascending=False).head(20)

【思考】排序后，如果我们仅仅关注年龄和票价两列。根据常识我知道发现票价越高的应该客舱越好，所以我们会明显看出，票价前20的乘客中存活的有14人，这是相当高的一个比例，那么我们后面是不是可以进一步分析一下票价和存活之间的关系，年龄和存活之间的关系呢？当你开始发现数据之间的关系了，数据分析就开始了。

对于多列排序的理解

d = {'A': [3, 6, 6, 7, 9], 'B': [2, 5, 8, 0, 0]}
df = pd.DataFrame(data=d)
print('排序前:\n', df)
'''
排序前:
   A  B
0  3  2
1  6  5
2  6  8
3  7  0
4  9  0
'''
res = df.sort_values(by=['A', 'B'], ascending=[False, True])
print('按照A列B列的值排序:\n', res)
'''
按照A列B列的值排序:
    A  B
4  9  0
3  7  0
1  6  5
2  6  8
0  3  2
'''

多列排序首先按照by[]列表和ascending[]列表中的对应顺序和对应逻辑进行排序，首先by列表的第一个列标签根据其在ascending列表的对应逻辑进行排序，其次再用by列表第二个列标签及其ascending列表的对应逻辑进行排序，以此类推。

多做几个数据的排序

#代码
data.sort_values(by=['年龄']).head(20)

年龄小的孩子大部分也都存活了，看来灾难发生时大家让孩子们先上了救生船

1.6.3 任务三：利用Pandas进行算术计算，计算两个DataFrame数据相加结果

#自己构建两个都为数字的DataFrame数据
#代码
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
print(frame1_a.head())
print(frame1_b.head())

将frame_a和frame_b进行相加

#代码
df3=frame1_a.add(frame1_b)   #fill_value=0用来定义对空值使用0填充
df3.head()

将frame_a和frame_b进行相加，如果使用了fill_value=0用来定义对空值使用0填充（只要有一个对应位置的数据就会有值，除非相加的表中一个都找不到，比如frist b 在两个表中都无法找到对应的值，所以只能是NaN）

#代码
df3=frame1_a.add(frame1_b,fill_value=0)   #fill_value=0用来定义对空值使用0填充
df3.head()

【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

1.6.4 任务四：通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

#代码
result=data['堂兄弟/妹个数'].add(data['父母与小孩个数'],fill_value=0)
# max(data)
max(result)
# data['堂兄弟/妹个数'].head(10)

1.6.5 任务五：学会使用Pandas describe()函数查看数据基本统计信息

#代码
frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

调用 describe 函数，观察frame2的数据基本信息

#代码
frame2.describe()

1.6.6 任务六：分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？

'''
看看泰坦尼克号数据集中 票价 这列数据的基本统计数据
'''
#代码
data['票价'].describe()

【总结】本节中我们通过Pandas的一些内置函数对数据进行了初步统计查看，这个过程最重要的不是大家得掌握这些函数，而是看懂从这些函数出来的数据，构建自己的数据分析思维，这也是第一章最重要的点，希望大家学完第一章能对数据有个基本认识，了解自己在做什么，为什么这么做，后面的章节我们将开始对数据进行清洗，进一步分析。

爱读Paper的Toby

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
《pandas数据分析》（一）——数据基础操作

主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。通过正式的数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。分为三个部分，大致可以分为：数据基础操作，数据清洗与重构，建模和评估。第一部分：我们获得一个要分析的数据，我要学会如何加载数据，查看数据，然后学习Pandas的一些基础操作，最后开始尝试探索性的数据分析。第二部分：当我们可以比较熟练的操作数据并认识这个数据之后，我们需要开始数据清洗以及重构，将原始数据变为一个可用好用的数据，
复制链接

扫一扫