一行Python代码搞定的20个Excel操作！

偷藏星星的老周

于 2024-09-29 16:00:02 发布

阅读量634

点赞数 35

文章标签： python excel 开发语言

本文链接：https://blog.csdn.net/m0_75067840/article/details/142635729

版权

在这里插入图片描述

在数据分析的过程中，从数据的导入到最终的可视化展示，每一个步骤都至关重要。

本文将详细介绍如何使用Python和Pandas库来处理Excel文件中的数据，包括数据的导入、清洗、处理以及可视化等多个方面。通过一系列实例，我们将展示如何高效地完成数据分析任务。

1.导入库和准备数据

首先，我们需要导入必要的库，并准备好我们的Excel文件。

# 导入库  
import pandas as pd    
# 读取Excel文件  
df = pd.read_excel('data.xlsx')    
# 显示前几行数据  
print(df.head())

这段代码中，pandas 是一个非常强大的数据分析库，它能帮助我们轻松处理各种表格数据。read_excel 函数可以读取Excel文件中的数据，并将其转换为 DataFrame 格式，方便我们后续操作。

2.查看数据的基本信息

了解数据的基本信息是数据分析的第一步。

# 查看数据基本信息  
print(df.info())

运行这段代码后，我们可以看到数据集的列名、非空值数量、数据类型等信息。这有助于我们快速了解数据的整体情况。

3.获取特定列的数据

有时候我们只需要处理数据集中的某几列数据。

# 获取特定列的数据  
specific_columns = df[['姓名', '年龄']]  
print(specific_columns)

这里我们使用了方括号 [] 和列名列表来获取特定列的数据。df[['姓名', '年龄']] 表示我们要提取名为“姓名”和“年龄”的两列数据。

4.计算某一列的总和

对于财务数据或其他需要汇总的数据，计算某一列的总和是非常常见的需求。

# 计算某一列的总和  
total_sum = df['销售额'].sum()  
print(total_sum)

这段代码中，sum() 函数用于计算指定列（这里是“销售额”）的所有值的总和。

5.找出最大值及其所在行

有时候我们需要找出某一列的最大值，并查看该值所在的整行数据。

# 找出最大值及其所在行  
max_value_row = df[df['销售额'] == df['销售额'].max()]  
print(max_value_row)

这里我们先用 df['销售额'].max() 找到“销售额”列的最大值，然后用条件 df['销售额'] == df['销售额'].max() 找到所有等于这个最大值的行。

6.数据去重

数据去重是数据清洗过程中必不可少的一步。

# 数据去重  
unique_df = df.drop_duplicates()  
print(unique_df)

drop_duplicates() 函数可以帮助我们删除重复的行，保留唯一的数据记录。

7.添加新列

在数据分析过程中，我们经常需要根据现有数据生成新的特征。

# 添加新列  
df['利润'] = df['销售额'] - df['成本']  
print(df)

这里我们根据“销售额”和“成本”两列计算出了一个新的“利润”列，并添加到了数据集中。

8.修改列名

为了使数据更有意义，我们可能需要修改某些列的名字。

# 修改列名  
df.rename(columns={'姓名': '名字'}, inplace=True)  
print(df)

rename() 函数可以用来修改列名。inplace=True 表示直接在原数据上修改。

9.删除不需要的列

有些列可能对我们当前的分析没有帮助，这时候就需要把它们删掉。

# 删除不需要的列  
df.drop('地址', axis=1, inplace=True)  
print(df)

drop() 函数可以用来删除指定的列。axis=1 表示要删除的是列而不是行。

10.将数据保存回Excel

最后，我们还需要将处理好的数据保存回Excel文件中。

# 将数据保存回Excel  
df.to_excel('output_data.xlsx', index=False)

to_excel() 函数可以将DataFrame对象保存为Excel文件。index=False 表示不保存索引列。

11.数据排序

在数据分析中，排序是非常常见的需求之一。我们可以通过简单的代码实现数据的排序。

# 对数据按销售额降序排序  
sorted_df = df.sort_values(by='销售额', ascending=False)  
print(sorted_df)

这里我们使用了 sort_values() 函数，参数 by='销售额' 表示按“销售额”列进行排序，ascending=False 表示降序排序。

12.筛选符合条件的数据

筛选数据也是数据分析中的常见需求。我们可以用一行代码实现数据的筛选。

# 筛选出销售额大于1000的数据  
filtered_df = df[df['销售额'] > 1000]  
print(filtered_df)

这里我们使用了布尔索引来筛选数据。df['销售额'] > 1000 生成一个布尔数组，表示哪些行的“销售额”大于1000。df[...] 则根据这个布尔数组来筛选数据。

13.替换特定值

在数据清洗过程中，替换特定值是一个常见的操作。

# 替换特定值  
df.replace({'销售额': {100: 0}}, inplace=True)  
print(df)

这里我们使用了 replace() 函数，将“销售额”列中的值100替换为0。

14.计算统计数据

统计分析中，计算均值、中位数、标准差等统计量是非常重要的步骤。

# 计算统计数据  
mean_sales = df['销售额'].mean()  
median_sales = df['销售额'].median()  
std_sales = df['销售额'].std()  
  
print(f"平均销售额：{mean_sales}")  
print(f"中位数销售额：{median_sales}")  
print(f"标准差销售额：{std_sales}")

这里我们分别计算了“销售额”列的平均值、中位数和标准差。

15.数据聚合

数据聚合是数据分析中的一个重要步骤，可以帮助我们更好地理解数据。

# 数据聚合  
aggregated_data = df.groupby('产品名称').agg({'销售额': ['sum', 'mean', 'count']})  
print(aggregated_data)

这里我们使用了 groupby() 函数对“产品名称”列进行分组，并使用 agg() 函数计算了“销售额”列的总和、平均值和计数值。

16.数据透视表

数据透视表是一种常用的数据分析工具，可以帮助我们快速进行多维度分析。

# 创建数据透视表  
pivot_table = pd.pivot_table(df, values='销售额', index=['产品名称'], columns=['月份'], aggfunc='sum')  
print(pivot_table)

这里我们使用了 pivot_table() 函数创建了一个数据透视表，按“产品名称”和“月份”进行分组，并计算了“销售额”的总和。

17.数据可视化

数据可视化是数据分析的重要环节，可以帮助我们直观地理解数据。

# 数据可视化  
import matplotlib.pyplot as plt  
  
# 绘制柱状图  
plt.bar(df['产品名称'], df['销售额'])  
plt.xlabel('产品名称')  
plt.ylabel('销售额')  
plt.title('各产品销售额')  
plt.show()

这里我们使用了 matplotlib 库绘制了一个柱状图，显示了每个产品的销售额。

18.数据合并

数据合并是数据分析中的常见需求，可以将多个数据集合并成一个。

# 数据合并  
other_df = pd.read_excel('other_data.xlsx')  
merged_df = pd.merge(df, other_df, on='产品名称')  
print(merged_df)

这里我们使用了 pd.merge() 函数将两个数据集按“产品名称”列进行合并。

19.数据切片

数据切片可以帮助我们快速获取特定部分的数据。

# 数据切片  
sliced_df = df.loc[(df['销售额'] > 1000) & (df['产品名称'] == '产品A')]  
print(sliced_df)

这里我们使用了 loc 属性来切片数据，df['销售额'] > 1000 和 df['产品名称'] == '产品A' 表示筛选条件。

20.数据过滤

数据过滤可以帮助我们筛选出特定条件下的数据。

# 数据过滤  
filtered_df = df[df['销售额'] > 1000]  
print(filtered_df)

这里我们使用了布尔索引来过滤数据，df['销售额'] > 1000 表示筛选条件。

本文详细介绍了如何使用Python和Pandas库来处理Excel文件中的数据，包括数据的导入、清洗、处理以及可视化等多个方面。

通过具体的例子，展示了如何高效地完成数据分析任务，如数据排序、筛选、替换特定值、计算统计数据、数据聚合、数据透视表、数据可视化等。这些操作能够帮助我们更好地理解和利用数据，为后续的决策提供有力的支持。

总结

最后希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力！相信自己！

文末福利

最后这里免费分享给大家一份Python全套学习资料，希望能帮到那些不满现状，想提升自己却又没有方向的朋友，也可以和我一起来学习交流呀。

包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】领取！

① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，学习不再是只会理论
④ 华为出品独家Python漫画教程，手机也能学习

可以扫描下方二维码领取【保证100%免费】

在这里插入图片描述

偷藏星星的老周

关注

35
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫