Python + Pandas : 轻松搞定CSV文件

1. 概述

CSV(Comma-Separated Values,逗号分隔值)格式是一种广泛使用的数据存储格式,它以纯文本形式存储表格数据。在 CSV 文件中,通常使用逗号来分隔同一行内的各个字段,而不同的行则用换行符分隔。CSV 文件由于其简单性和易于读写的特点,在数据导出、数据交换以及许多类型的数据处理任务中被广泛应用。

尽管名为“逗号分隔”,但实际上 CSV 文件的字段分隔符也可以是其他字符,如制表符或分号。

由于其结构简单,CSV 文件可以被多种程序和服务所读取,比如文本编辑器、电子表格软件、数据库管理系统以及编程语言中的数据处理库。然而,处理大型或复杂的 CSV 文件仍然可能是一个挑战,尤其是当它们包含不规则的格式、缺失数据或特殊字符时。在这篇文章中,我们将探讨如何使用 Python 和 Pandas 库来有效地处理 CSV 文件,使这一过程变得简单而高效。

2. 安装

使用 pip 安装它:

pip install pandas

或从国内清华源安装:

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 示例 CSV 文件

假设我们有一个名为 “sales_data.csv” 的 CSV 文件,内容如下:

Date,Sales,Expenses
2024-01-01,2000,800
2024-01-02,1850,950
2024-01-03,2100,1000
2024-01-04,1500,700
2024-01-05,1950,850

这个简单的文件包含了一周内每天的销售和支出数据。

4. 读取 CSV 文件

首先,我们使用 Pandas 读取 CSV 文件:

import pandas as pd

df = pd.read_csv('sales_data.csv')
print(df)

输出结果:

         Date  Sales  Expenses
0  2024-01-01   2000       800
1  2024-01-02   1850       950
2  2024-01-03   2100      1000
3  2024-01-04   1500       700
4  2024-01-05   1950       850

5. 数据选择和过滤

假设我们只对销售额超过1900的数据感兴趣:

high_sales = df[df['Sales'] > 1900]
print(high_sales)

输出结果:

         Date  Sales  Expenses
0  2024-01-01   2000       800
2  2024-01-03   2100      1000
4  2024-01-05   1950       850

6. 缺失数据处理

如果我们的 CSV 文件中有缺失值,我们可以选择填充或删除它们。假设我们的 CSV 文件中有缺失值,我们可以这样处理:

# 假设df有缺失值
df_filled = df.fillna(0)
print(df_filled)

或者删除含缺失值的行:

df_dropped = df.dropna()
print(df_dropped)

7. 数据聚合和分组

我们可以对数据进行分组,例如计算每天的总收益(销售减去支出):

df['Profit'] = df['Sales'] - df['Expenses']
daily_profit = df.groupby('Date')['Profit'].sum()
print(daily_profit)

输出结果:

Date
2024-01-01    1200
2024-01-02     900
2024-01-03    1100
2024-01-04     800
2024-01-05    1100
Name: Profit, dtype: int64

8. 数据导出

最后,我们可以将处理后的数据导出为一个新的 CSV 文件:

df.to_csv('processed_sales_data.csv', index=False)

9. 其他 Python 库

除了 Pandas,还有一些其他 Python 库也可以用于处理 CSV 文件:

  1. CSV 库:Python 的标准库,适用于简单的 CSV 文件读写操作。
  2. NumPy:适合进行数值运算的大型数据集。

10. 总结

在这篇文章中,我们详细探讨了如何使用 Python 和 Pandas 来处理 CSV 文件,从基础的读写操作到高级的数据处理技巧。无论你是数据科学的初学者,还是寻求提高工作效率的专业人士,Python 和 Pandas 都是处理 CSV 文件的理想选择。


以上就是“Python + Pandas : 轻松搞定CSV文件”的全部内容,希望对你有所帮助。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

img

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

五、Python练习题

检查学习结果。

img

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

img

最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

  • 14
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值