Python处理表格数据的10个杀手级脚本

在日常的数据分析和处理工作中,Python 是一个非常流行且强大的工具。
利用 pandas 库,你可以高效地处理各种表格数据。本文将介绍十个常用的 Python 脚本,结合生活中的实际例子,以便帮助初学者更好地理解和应用这些操作。

包含编程资料、学习路线图、源代码、软件安装包等!【[点击这里]】!

1. 读取 CSV 文件

  • CSV(Comma-Separated Values)文件是存储表格数据的一种简单格式,常用于数据交换。使用 Pandas,可以轻松加载 CSV 文件为 DataFrame 对象,方便后续分析。
  • 假设你有一个关于水果销售的表格,保存在名为 fruits.csv 的文件中,你想查看这个文件的内容。
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 查看前五行数据
print(data.head())
代码说明
  • pd.read_csv(‘fruits.csv’):从当前目录下读取名为 fruits.csv 的文件。
  • data.head():显示 DataFrame 的前五行,帮助我们快速了解数据结构。

2. 写入 CSV 文件

  • 在处理完数据后,我们通常需要将结果保存为 CSV 文件以便分享或后续使用。
  • 假设你整理了一些经过计算的水果销售数据,想把它保存到新的文件
updated_fruits.csv。

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Fruit': ['Apple', 'Banana', 'Cherry'],
    'Sales': [150, 200, 120]}
df = pd.DataFrame(data)

# 将 DataFrame 写入 CSV 文件
df.to_csv('updated_fruits.csv', index=False)
代码说明
  • pd.DataFrame(data):创建一个包含水果名称和销售量的 DataFrame。
  • df.to_csv(‘updated_fruits.csv’, index=False):将 DataFrame 保存为 CSV 文件,index=False表示不保存行索引。

3. 过滤数据

  • 通过条件筛选,我们可以从 DataFrame 中提取特定的数据行,这对于数据分析非常重要。
  • 假设你的水果销售数据中有很多记录,你只想找出销售量大于 150 的水果。
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 过滤出销售量大于 150 的水果
filtered_data = data[data['Sales'] > 150]

# 查看过滤后的数据
print(filtered_data)
代码说明
  • data[data[‘Sales’] > 150]:使用布尔索引来筛选符合条件的行。

4. 数据排序

  • 排序功能使得我们可以根据某一列的值对整个 DataFrame 进行排序,从而更容易查找信息
  • 如果你希望按销量从高到低排列水果,以便快速找到最佳销售产品。
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 按销售量降序排序
sorted_data = data.sort_values(by='Sales', ascending=False)

# 查看排序后的数据
print(sorted_data)
代码说明
  • data.sort_values(by=‘Sales’, ascending=False):根据销售量列对数据进行降序排序。

5. 数据聚合

  • 数据聚合允许我们对数据进行分组并计算统计信息,如求平均值、总和等
  • 生活例子
    假设你有多个地区的水果销售数据,希望计算每种水果的总销售量。
import pandas as pd

# 示例数据
data = {
    'Region': ['North', 'South', 'North', 'South'],
    'Fruit': ['Apple', 'Apple', 'Banana', 'Banana'],
    'Sales': [100, 200, 300, 150]}
df = pd.DataFrame(data)

# 按水果类型分组并计算总销量
total_sales = df.groupby('Fruit')['Sales'].sum()

# 查看结果
print(total_sales)
代码说明
  • df.groupby(‘Fruit’)[‘Sales’].sum():根据水果类型进行分组,并计算每种水果的总销售量

6. 处理缺失值

  • 在数据集中,缺失值是常见的问题。Pandas 提供了多种方法来处理这些缺失值。
  • 如果在你的销售数据中,有些水果的销售量缺失,你可能想要删除这些记录。
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 查看缺失值情况
print(data.isnull().sum())

# 删除含有缺失值的行
cleaned_data = data.dropna()

# 查看处理后的数据
print(cleaned_data)
代码说明
  • data.isnull().sum():检查每列的缺失值数量。
  • data.dropna():删除含有缺失值的行。

7. 合并多个 DataFrame

  • 在数据处理中,经常需要将多个数据集结合起来。Pandas 提供了灵活的合并功能。
  • 假设你有两份数据,一个是水果销售清单,另一个是库存列表,你希望将这两个列表合并,以便找出哪些水果可用。
import pandas as pd

# 创建两个示例 DataFrame
sales_data = pd.DataFrame({'Fruit': ['Apple', 'Banana'], 'Sales': [150, 200]})
inventory_data = pd.DataFrame({'Fruit': ['Apple', 'Banana', 'Cherry'], 'Stock': [50, 30, 20]})

# 合并两个 DataFrame
merged_data = pd.merge(sales_data, inventory_data, on='Fruit', how='outer')

# 查看合并后的数据
print(merged_data)
代码说明
  • pd.merge(sales_data, inventory_data, on=‘Fruit’, how=‘outer’):根据水果名称进行外连接合并。

8. 数据透视表

  • 数据透视表是用于数据汇总和分析的一种有效工具,可以快速计算各类统计信息。
  • 假设你想知道每种水果在不同商店的销售额,以便评估其表现。
import pandas as pd

# 创建示例数据
data = {
    'Store': ['Store A', 'Store A', 'Store B', 'Store B'],
    'Fruit': ['Apple', 'Banana', 'Apple', 'Banana'],
    'Sales': [100, 150, 200, 250]}
df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='Sales', index='Fruit', columns='Store', aggfunc='sum')

# 查看透视表
print(pivot_table)
代码说明
  • pd.pivot_table(df, values=‘Sales’, index=‘Fruit’, columns=‘Store’, aggfunc=‘sum’):创建数据透视表,以汇总每种水果在不同商店的销售额。

9. 导入 Excel 文件

  • 除了 CSV 文件,Pandas 还支持读取 Excel 文件,方便用户处理更多格式的数据。
  • 假设你有一个 Excel 文件,其中详细记录了你的每月开支,你希望读取并分析这些数据。
import pandas as pd

# 读取 Excel 文件
data = pd.read_excel('monthly_expenses.xlsx', sheet_name='Sheet1')

# 查看前五行数据
print(data.head())
代码说明
  • pd.read_excel(‘monthly_expenses.xlsx’, sheet_name=‘Sheet1’):读取指定工作表的 Excel 文件。

10. 导出到 Excel 文件

  • 在数据处理完成后,我们往往需要将结果保存为 Excel 文件,便于分享和进一步分析。
  • 假设你已经整理好了每月的开支数据,希望将其保存为一个新的 Excel 文件,以便于未来的查看和报表生成。
import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Month': ['January', 'February', 'March'],
    'Expenses': [300, 400, 350]
}
df = pd.DataFrame(data)

# 将 DataFrame 导出到 Excel 文件
df.to_excel('monthly_expenses_report.xlsx', index=False)
代码说明
  • df.to_excel(‘monthly_expenses_report.xlsx’, index=False):将 DataFrame 导出为 Excel 文件,index=False 表示不保存行索引。

总结

  • 以上就是处理表格数据时常用的 10 个 Python 脚本示例。从读取和写入文件,到数据过滤、排序、聚合等操作,Pandas 为我们提供了丰富的功能来简化这些任务。
  • 希望这些示例能够帮助你更好地理解和使用 Python 在数据处理中的应用,提升你的数据分析能力!

图片

总结

  • 最后希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力!相信自己!

文末福利

  • 最后这里免费分享给大家一份Python全套学习资料,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。
包含编程资料、学习路线图、源代码、软件安装包等!【[点击这里]】领取!
  • ① Python所有方向的学习路线图,清楚各个方向要学什么东西
  • ② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
  • ③ 100多个Python实战案例,学习不再是只会理论
  • ④ 华为出品独家Python漫画教程,手机也能学习

可以扫描下方二维码领取【保证100%免费在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值