DataFrame常用操作详解

nk0721

已于 2024-06-12 23:10:01 修改

阅读量535

点赞数 3

文章标签： python 开发语言

于 2024-06-12 21:10:34 首次发布

本文链接：https://blog.csdn.net/nk0721/article/details/139635325

版权

一.查看DataFrame的常用属性

1.1DataFrame的基础属性

1.2 size,ndim和shape属性

前言

在当今数据驱动的时代，数据分析已经渗透到我们生活的各个角落。无论是商业决策、科学研究还是个人项目，都离不开对数据的深入分析和解读。而Python作为一门强大的编程语言，凭借其丰富的库和工具，成为了数据分析师和数据科学家们的首选工具。

在Python的数据分析生态系统中，pandas库无疑是一颗璀璨的明星。它提供了高效、灵活的数据结构和数据分析工具，使得数据处理和分析变得轻而易举。而DataFrame作为pandas库中的核心数据结构，更是以其直观、易用的特性受到了广泛的欢迎。

本博客旨在通过一系列实际的案例分析，展示如何在Python中运用DataFrame的常用操作进行数据分析。我们将从数据的加载、清洗、转换到数据的探索、分组、聚合，再到数据的可视化，全方位地介绍DataFrame的强大功能。

在博客中，我们将深入浅出地讲解每个操作的语法和用法，并通过具体的代码示例和输出结果，让读者能够轻松跟随我们的步伐进行操作。同时，我们还将结合业务或研究背景，对数据分析的结果进行解读和讨论，提出基于数据的见解和建议。

无论你是数据分析的新手还是资深专家，本博客都将为你提供有价值的内容和学习机会。让我们一起走进DataFrame的世界，探索数据分析的奥秘吧！

一.查看DataFrame的常用属性

1.1DataFrame的基础属性

有values, index, columns, columns, dtypes, 从中分别可以获取元素，索引，列名和数据类型。

以下是用alues, index, columns, columns, dtypes发别查看音乐行业信息表的4个属性

from sqlalchemy import create_engine
import pandas as pd
#\创建数据库连接
engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/testdb?charset=utf8')
musicdata = pd.read_sql_table('musicdata', con=engine)
print('音乐行业收入信息表的索引为: ', musicdata.index)
print('音乐行业收入信息表的所有值为: \n', musicdata.values)
print('音乐行业收入信息表的列名为： \n',  musicdata.columns)
print('音乐行业收入信息表的数据类型为： \n',  musicdata.dtypes)

1.2 size,ndim和shape属性

如下:

#查看DataFrame的元素个数，维度，形状
print('音乐行业收入信息表的元素个数为： \n',  musicdata.size)
print('音乐行业收入信息表的维度为： \n',  musicdata.ndim)
print('音乐行业收入信息表的形状为： \n',  musicdata.shape)

1.3使用T属性进行转换

T属性能够实现DataFrame的转换（行，列）。

print('音乐行业收入信息表转置前形状为为： \n',  musicdata.shape)
print('音乐行业收入信息表转置后形状为为： \n',  musicdata.T.shape)

二. DataFrame的基本操作

2.1. 从字典创建DataFrame

可以使用字典来创建DataFrame，其中字典的键将作为列名，字典的值（通常是列表或Series）将作为相应的列数据。

import pandas as pd  
  
# 字典中的值可以是列表或Series  
data = {  
    'A': [1, 2, 3],  
    'B': [4, 5, 6],  
    'C': pd.Series([7, 8, 9]),  
    'D': ['p', 'q', 'r']  
}  
  
# 创建一个DataFrame  
df = pd.DataFrame(data)  
print(df)

2.2 查看DataFrame信息

head() 和 tail()：查看前几行或后几行数据。
info()：查看DataFrame的简要摘要。
describe()：查看数值列的统计摘要。

# 查看前几行数据  
print(df.head())  
  
# 查看后几行数据  
print(df.tail())  
  
# 查看DataFrame的简要信息  
print(df.info())  
  
# 查看数值列的统计摘要  
print(df.describe())  # 注意：这里只有Age列会被包括在描述中

2.3选择数据

使用列名选择列。
使用行标签选择行。
使用条件表达式选择数据。
使用loc[]和iloc[]基于标签或位置选择数据。

# 选择单列  
print(df['Name'])  
  
# 选择多列  
print(df[['Name', 'Age']])  
  
# 基于条件选择数据  
print(df[df['Age'] > 30])  
  
# 使用loc基于标签选择数据  
print(df.loc[1])  # 选择第二行  
print(df.loc[1:3])  # 选择第二行到第三行（不包含第三行）  
  
# 使用iloc基于位置选择数据  
print(df.iloc[1])  # 选择第二行  
print(df.iloc[1:3])  # 选择第二行到第三行（不包含第三行）

2.4 数据清洗

处理缺失值（dropna(), fillna()）。
数据类型转换（astype()）。
重复值处理（duplicated(), drop_duplicates()）。

# 处理缺失值  
# 假设我们有一些缺失值  
df.loc[2, 'Age'] = pd.NA  # 在pandas 1.0+中，使用pd.NA代替np.nan来创建缺失值  
print(df.dropna())  # 删除包含缺失值的行  
print(df.fillna(0))  # 用0填充缺失值  
  
# 数据类型转换  
df['Age'] = df['Age'].astype(float)  # 将Age列转换为浮点数类型  
  
# 重复值处理  
print(df.duplicated())  # 显示哪些行是重复的  
print(df.drop_duplicates())  # 删除重复的行

2.5数据聚合和分组

groupby()：根据一列或多列的值对DataFrame进行分组。
使用聚合函数（如sum(), mean(), count()等）对分组后的数据进行计算。

# 根据City列分组并计算每个城市的平均年龄  
grouped = df.groupby('City')['Age'].mean()  
print(grouped)  
  
# 分组后可以使用agg函数进行多个聚合操作  
grouped_multiple = df.groupby('City').agg({'Age': ['mean', 'min', 'max']})  
print(grouped_multiple)

2.6数据转换和映射

使用apply()函数对DataFrame或Series应用自定义函数。
使用map()函数对Series中的值进行映射。

# 使用apply函数对Age列应用自定义函数  
def add_one(x):  
    return x + 1  
  
df['Age_Plus_One'] = df['Age'].apply(add_one)  
print(df)  
  
# 使用map函数对Name列进行映射（假设我们有一个名字到昵称的映射字典）  
nicknames = {'Alice': 'Ali', 'Bob': 'Bobby', 'Charlie': 'Char'}  
df['Nickname'] = df['Name'].map(nicknames)  
print(df)

2.7. 数据排序和排名

sort_values()：根据一列或多列的值对DataFrame进行排序。
rank()：计算数据的排名。

# 根据Age列排序  
df_sorted = df.sort_values(by='Age')  
print(df_sorted)  
  
# 计算数据的排名  
df['Rank'] = df['Age'].rank(ascending=False)  
print(df)

2.8数据可视化

import matplotlib.pyplot as plt  
  
df['Age'].plot(kind='hist')  # 绘制'Age'列的直方图  
plt.show()

三.总结

经过这次博客的创作过程，我们深入探讨了如何在Python中运用pandas库的DataFrame数据结构进行数据分析。DataFrame作为pandas的核心组件，不仅为我们提供了高效的数据存储和处理能力，还通过丰富的API支持了各种各样的数据分析操作。

在博客中，我们介绍了DataFrame的多种常用操作，包括数据的加载与保存、数据的清洗与转换、数据的筛选与排序、数据的分组与聚合，以及数据的可视化等。每个操作都通过具体的代码示例和解释进行了详细讲解，使读者能够直观地理解并掌握这些技能。

通过实践这些操作，我们发现DataFrame的灵活性和强大功能使得数据分析变得更为简单和高效。无论是在数据清洗时处理缺失值和异常值，还是在数据分析时运用分组和聚合来提取数据中的关键信息，DataFrame都为我们提供了便捷的工具和方法。

此外，我们还讨论了数据可视化的重要性，并通过使用matplotlib和seaborn等库将分析结果以直观的图表形式展示出来。这不仅有助于我们更好地理解数据，还能够将数据分析结果以更易于理解的方式呈现给其他人。

在博客的创作过程中，我们也遇到了一些挑战，如处理大型数据集时的性能问题、复杂数据分析任务的逻辑设计等。但正是这些挑战促使我们不断学习和探索，提高我们的数据分析能力和解决问题的能力。

总之，通过本次博客的创作，我们深刻体会到了DataFrame在数据分析中的重要作用和强大功能。它不仅提高了我们处理和分析数据的能力，还为我们提供了更多的思路和方法来解决实际问题。希望读者能够通过阅读本博客，对DataFrame的常用操作有更深入的了解，并在实际的数据分析工作中灵活运用这些技能。

nk0721

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DataFrame常用操作详解

在本文的结尾，我们简要回顾了pandas DataFrame的常用操作，这些操作构成了数据分析工作流的核心。DataFrame作为pandas库中的核心数据结构，允许我们以表格形式存储和操作数据，为数据清洗、转换、分析和可视化提供了强大的支持。我们提到了DataFrame的属性、索引和切片，这些基本操作使我们能够轻松访问和操作数据集中的特定部分。数据清洗和预处理是数据分析中不可或缺的一步，而DataFrame的缺失值处理、重复值删除以及类型转换等功能，为这一过程提供了极大的便利。
复制链接

扫一扫