2、Pandas核心用法常用数据分析库 (下)

最新推荐文章于 2024-07-25 23:19:30 发布

shike%

最新推荐文章于 2024-07-25 23:19:30 发布

阅读量3.6k

点赞数

文章标签：数据分析 python 数据挖掘

本文链接：https://blog.csdn.net/shike1998/article/details/121963061

版权

2、预备知识-python核心用法常用数据分析库（下）

文章目录

2、预备知识-python核心用法常用数据分析库（下）

概述

Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用。使用 Pandas 我们可以 Excel/CSV/TXT/MySQL 等数据读取，然后进行各种清洗、过滤、透视、聚合分析，也可以直接绘制折线图、饼图等数据分析图表，在功能上它能够实现自动化的对大文件处理，能够实现 Excel 的几乎所有功能并且更加强大。

本实验将通过实战的方式，介绍pandas数据分析库的基本使用，让大家在短时间内快速掌握python的数据分析库pandas的使用，为后续项目编码做知识储备

实验环境

Python 3.7
Pycharm

任务二：Pandas数据分析实战-1

【任务目标】

本任务主要目标为使用pandas进行数据分析实战，在实战过程中带大家了解pandas模块的一下功能：

了解数据
分析数据问题
清洗数据
整合代码

【任务步骤】

1、准备工作

打开CMD窗口后，执行如下命令，打开jupyter notebook编辑器

jupyter notebook

成功执行以上命令后，系统将自动打开默认浏览器，如下图所示：

成功打开浏览器后，按如下流程创建 notebook 文件

对新建notebook进行重命名操作

2、notebook 文件新建完成后，接下来在新建的 notebook 中编写代码

了解数据

在处理任何数据之前，我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式，这样我们就可以大概了解数据分析之前要做哪些“清理”工作。

本次我们需要一个 patient_heart_rate.csv 的数据文件，这个数据很小，可以让我们一目了然。这个数据是 csv 格式。数据是描述不同个体在不同时间的心跳情况。数据的列信息包括人的年龄、体重、性别和不同时间的心率。

加载数据即查看数据集

import pandas as pd
df = pd.read_csv('data/patient_heart_rate.csv')
df.head()

运行结果如下：

分析数据问题

没有列头
一个列有多个参数
列数据的单位不统一
缺失值
重复数据
非 ASCII 字符
有些列头应该是数据，而不应该是列名参数

3、清洗数据

3.1、没有列头

如果我们拿到的数据像上面的数据一样没有列头，Pandas 在读取 csv 提供了自定义列头的参数。下面我们就通过手动设置列头参数来读取 csv，代码如下：

import pandas as pd
column_names= ['id', 'name', 'age', 'weight','m0006',
                'm0612','m1218','f0006','f0612','f1218']
df = pd.read_csv('data/patient_heart_rate.csv', names = column_names)
df.head()

运行结果如下：

上面的结果展示了我们自定义的列头。我们只是在这次读取 csv 的时候，多了传了一个参数 names = column_names，这个就是告诉 Pandas 使用我们提供的列头。

4、一个列有多个参数

在数据中不难发现，Name 列包含了两个参数 Firtname 和 Lastname。为了达到数据整洁目的，我们决定将 name 列拆分成 Firstname 和 Lastname

使用 str.split(expand=True),将列表拆成新的列，再将原来的 Name 列删除

df[['first_name','last_name']] = df['name'].str.split(expand=True)
df.drop('name', axis=1, inplace=True)
df.head()

运行结果如下：

5、列数据的单位不统一

如果仔细观察数据集可以发现 Weight 列的单位不统一。有的单位是 kgs，有的单位是 lbs

lbs_weight_s = df[df.weight.str.contains("lbs").fillna(False)]['weight']
lbs_weight_s = lbs_weight_s.apply(lambda lbs:  "%.2fkgs" % (float(lbs[:-3])/2.2)  )
df.loc[lbs_weight_s.index,'weight'] = lbs_weight_s

运行结果如下：

6、缺失值处理

在数据集中有些年龄、体重、心率是缺失的。我们又遇到了数据清洗最常见的问题——数据缺失。一般是因为没有收集到这些信息。我们可以咨询行业专家的意见。典型的处理缺失数据的方法：

删：删除数据缺失的记录
赝品：使用合法的初始值替换，数值类型可以使用 0，字符串可以使用空字符串“”
均值：使用当前列的均值
高频：使用当前列出现频率最高的数据
源头优化：如果能够和数据收集团队进行沟通，就共同排查问题，寻找解决方案。

7、重复数据处理

有的时候数据集中会有一些重复的数据，执行以下代码观察数据集前10条数据

df.head(10)

运行结果如下：

观察以上结果，可以发现在我们的数据集中也存在重复的数据，如下

首先我们校验一下是否存在重复记录。如果存在重复记录，就使用 Pandas 提供的 drop_duplicates() 来删除重复数据。

df.drop_duplicates(['first_name','last_name'],inplace=True)
df.head(10)

运行结果如下：

删除weight字段重复的数据

df.drop_duplicates(['weight'],inplace=True)
df.head(10)

运行结果如下

8、非ASCII 字符

在数据集中 Fristname 和 Lastname 有一些非 ASCII 的字符。

处理非 ASCII 数据方式有多种

删除
替换
仅仅提示一下

我们使用删除的方式：

df['first_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True)
df['last_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True)
df.head()

运行结果如下：

9、有些列头应该是数据，而不应该是列名参数

有一些列头是有性别和时间范围组成的，这些数据有可能是在处理收集的过程中进行了行列转换，或者收集器的固定命名规则。这些值应该被分解为性别（m,f），小时单位的时间范围（00-06，06-12，12-18）

sorted_columns = ['id','age','weight','first_name','last_name']
df = pd.melt(df,
             id_vars=sorted_columns,
             var_name='sex_hour',
             value_name='puls_rate')
df = df[df.puls_rate != '-'].dropna()
df = df.sort_values(['id','first_name','last_name']).reset_index()
def split_sex_date(sex_hour):
    sex = sex_hour[:1]
    if 'f' == sex:
        sex = '女'
    elif 'm' == sex:
        sex = '男'
    hour = sex_hour[1:]
    return pd.Series([sex,hour])
df[['sex','hour']] = df.sex_hour.apply(split_sex_date)
df.drop('sex_hour',axis=1)

运行结果如下：

任务三：Pandas数据分析实战-2

【任务目标】

本任务主要目标为使用pandas进行数据分析实战，在实战过程中带大家了解pandas模块的一下功能：

日期的处理
字符编码的问题

【任务步骤】

1、参考【任务一】第1步中操作，在jupyter notebook编辑中重新新建一个notebook 文件，命名为 pandas-data-processing-3，如下图所示：

2、预览数据

这次我们使用 Artworks.csv，我们选取 100 行数据来完成本次内容。具体步骤：

导入Pandas
读取 csv 数据到 DataFrame（要确保数据已经下载到指定路径）

DataFrame 是 Pandas 内置的数据展示的结构，展示速度很快，通过 DataFrame 我们就可以快速的预览和分析数据。代码如下：

import pandas as pd
df = pd.read_csv('./data/Artworks.csv').head(100)
df.head(10)

运行结果如下：

2、统计日期数据

我们仔细观察一下 Date 列的数据，有一些数据是年的范围（1976-1977），而不是单独的一个年份。在我们使用年份数据画图时，就不能像单独的年份那样轻易的画出来。我们现在就使用 Pandas 的 value_counts() 来统计一下每种数据的数量。

首先，选择要统计的列，并调用 value_counts():

df['Date'].value_counts()

运行结果如下：

3、日期数据问题

Date 列数据，除了年份是范围外，还有三种非正常格式。下面我们将这几种列出来：

问题一，时间范围（1976-77）
问题二，估计（c. 1917，1917 年前后）
问题三，缺失数据（Unknown）
问题四，无意义数据（n.d.）

接下来我们会处理上面的每一个问题，使用 Pandas 将这些不规则的数据转换为统一格式的数据。

问题一和二是有数据的只是格式上欠妥当，问题三和四实际上不是有效数据。针对前两个问题，我们可以通过代码将据格式化来达到清洗的目的，然而，后两个问题，代码上只能将其作为缺失值来处理。简单起见，我们将问题三和四的数据处理为0。

处理问题一

问题一的数据都是两个年时间范围，我们选择其中的一个年份作为清洗之后的数据。为了简单起见，我们就使用开始的时间来替换这样问题的数据，因为这个时间是一个四位数的数字，如果要使用结束的年份，我们还要补齐前两位的数字。

首先，我们需要找到问题一的数据，这样我们才能将其更新。要保证其他的数据不被更新，因为其他的数据有可能是已经格式化好的，也有可能是我们下面要处理的。

我们要处理的时间范围的数据，其中包含有“-”，这样我们就可以通过这个特殊的字符串来过滤我们要处理的数据，然后，通过 split() 利用“-”将数据分割，将结果的第一部分作为处理的最终结果。

代码如下

row_with_dashes = df['Date'].str.contains('-').fillna(False)
for i, dash in df[row_with_dashes].iterrows():
    df.at[i,'Date'] = dash['Date'][0:4]
df['Date'].value_counts()

运行结果如下：

处理问题二

问题二的数据体现了数据本身的不准确性，是一个估计的年份时间，我们将其转换为年份，那么，就只要保留最后四位数字即可，该数据的特点就是数据包含“c”，这样我们就可以通过这一特征将需要转换的数据过滤出来。

row_with_cs = df['Date'].str.contains('c').fillna(False)
for i,row in df[row_with_cs].iterrows():
    df.at[i,'Date'] = row['Date'][-4:]
df[row_with_cs]

运行结果如下：

处理问题三四

将这问题三四的数据赋值成初始值 0

df['Date'] = df['Date'].replace('Unknown','0',regex=True)
df['Date'] = df['Date'].replace('n.d.','0',regex=True)
df['Date']

运行结果如下：

4、附：完成代码

注意：完整代码中删除了数据展示部分

import pandas as pd
df = pd.read_csv('../data/Artworks.csv').head(100)
df.head(10)
df['Date'].value_counts()
row_with_dashes = df['Date'].str.contains('-').fillna(False)
for i, dash in df[row_with_dashes].iterrows():
    df.at[i,'Date'] = dash['Date'][0:4]
df['Date'].value_counts()
row_with_cs = df['Date'].str.contains('c').fillna(False)
for i,row in df[row_with_cs].iterrows():
    df.at[i,'Date'] = row['Date'][-4:]
df['Date'].value_counts()
df['Date'] = df['Date'].replace('Unknown','0',regex=True)
df['Date'] = df['Date'].replace('n.d.','0',regex=True)
df['Date'].value_counts()