Python数据分析库Pandas实战：解析Excel数据

最新推荐文章于 2025-03-29 14:09:31 发布

李元静

最新推荐文章于 2025-03-29 14:09:31 发布

阅读量3.1w

点赞数 21

分类专栏： Python 文章标签： python pandas 机器学习 excel 分析计算

本文链接：https://blog.csdn.net/liyuanjinglyj/article/details/103139697

版权

本文介绍了如何使用Python的Pandas库来处理Excel数据，包括安装Pandas，读取Excel文件，以及如何获取某用户所有月份的发帖量、最大浏览量和输出占比数据。通过实例展示了Pandas在数据操作和计算上的便利性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上一节Python操作Excel表格使用的是openpyxl包，这个包虽然能处理简单日常工作中Excel表格数据处理，但面对机器学习庞大的数据，还是显得力不从心，所以openpyxl大多数应用于简单的Excel表格操作，以及机器学习分析后表格的样式优化，但针对于数据的操作运算，我们还是要借助与pandas。

1.安装Pandas包

对于直接下载python安装程序的用户来说，pandas包并没有自带安装，所以需要使用Pandas的程序员，需要借助于pip install pandas进行安装。（数据表格与源代码在文章最后下载）

import pandas as pd

df = pd.read_excel('shuju.xlsx')
df['s_date'] = pd.to_datetime(df['s_date'])
df = df.set_index('s_date')
#每月某用户总评论量
x = []
y = []
data = df[df['s_nameId'] == '择城终老'].resample('M')['s_comment'].max().reset_index(drop=False)
for index, row in data.iterrows():
    if pd.isnull(row['s_comment']):
        y.append(0)
    else:
        y.append(row['s_count'])
    x.append(str(row['s_date'].year)[-2:] + str(row['s_date'].month))
print(x)
print(y)

而直接使用anaconda安装python的程序员，可以直接使用pandas包，因为anaconda自带安装了pandas，无需再次安装，推荐使用这种方式进行安装。

2.如何使用Pandas包

对于Pandas来说，首先，我们肯定要先获取Excel文件，才能进行后续的操作以及计算，所以我们需要掌握如何获取到Excel表格中的所有数据，代码如下：

import pandas as pd
df = pd.read_excel('shuju.xlsx')

这里我们先引入了pandas包，并且重新给他起了一个简单的名字pd，然后直接使用pd.read_excel(‘文件路径’)，把Excel数据读取进来，我们通过print(df)打印来看看表格中的数据，如图：

可以看到表格中有3151行数据，这样就能直接输出打印，也就是说，通过上面的调用，就已经获取了所有的数据，并不需要像openpyxl

最低0.47元/天解锁文章