Python处理表格数据的10个杀手级脚本-CSDN博客

本文链接：https://blog.csdn.net/m0_75067840/article/details/148172980

在日常的数据分析和处理工作中，Python 是一个非常流行且强大的工具。

利用 pandas 库，你可以高效地处理各种表格数据。本文将介绍十个常用的 Python 脚本，结合生活中的实际例子，以便帮助初学者更好地理解和应用这些操作。

包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！

1. 读取 CSV 文件

CSV（Comma-Separated Values）文件是存储表格数据的一种简单格式，常用于数据交换。使用 Pandas，可以轻松加载 CSV 文件为 DataFrame 对象，方便后续分析。
假设你有一个关于水果销售的表格，保存在名为 fruits.csv 的文件中，你想查看这个文件的内容。

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 查看前五行数据
print(data.head())

代码说明

pd.read_csv(‘fruits.csv’)：从当前目录下读取名为 fruits.csv 的文件。
data.head()：显示 DataFrame 的前五行，帮助我们快速了解数据结构。

2. 写入 CSV 文件

在处理完数据后，我们通常需要将结果保存为 CSV 文件以便分享或后续使用。
假设你整理了一些经过计算的水果销售数据，想把它保存到新的文件

updated_fruits.csv。

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Fruit': ['Apple', 'Banana', 'Cherry'],
    'Sales': [150, 200, 120]}
df = pd.DataFrame(data)

# 将 DataFrame 写入 CSV 文件
df.to_csv('updated_fruits.csv', index=False)

代码说明

pd.DataFrame(data)：创建一个包含水果名称和销售量的 DataFrame。
df.to_csv(‘updated_fruits.csv’, index=False)：将 DataFrame 保存为 CSV 文件，index=False表示不保存行索引。

3. 过滤数据

通过条件筛选，我们可以从 DataFrame 中提取特定的数据行，这对于数据分析非常重要。
假设你的水果销售数据中有很多记录，你只想找出销售量大于 150 的水果。

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 过滤出销售量大于 150 的水果
filtered_data = data[data['Sales'] > 150]

# 查看过滤后的数据
print(filtered_data)

代码说明

data[data[‘Sales’] > 150]：使用布尔索引来筛选符合条件的行。

4. 数据排序

排序功能使得我们可以根据某一列的值对整个 DataFrame 进行排序，从而更容易查找信息
如果你希望按销量从高到低排列水果，以便快速找到最佳销售产品。

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 按销售量降序排序
sorted_data = data.sort_values(by='Sales', ascending=False)

# 查看排序后的数据
print(sorted_data)

代码说明

data.sort_values(by=‘Sales’, ascending=False)：根据销售量列对数据进行降序排序。

5. 数据聚合

数据聚合允许我们对数据进行分组并计算统计信息，如求平均值、总和等
生活例子
假设你有多个地区的水果销售数据，希望计算每种水果的总销售量。

import pandas as pd

# 示例数据
data = {
    'Region': ['North', 'South', 'North', 'South'],
    'Fruit': ['Apple', 'Apple', 'Banana', 'Banana'],
    'Sales': [100, 200, 300, 150]}
df = pd.DataFrame(data)

# 按水果类型分组并计算总销量
total_sales = df.groupby('Fruit')['Sales'].sum()

# 查看结果
print(total_sales)

代码说明

df.groupby(‘Fruit’)[‘Sales’].sum()：根据水果类型进行分组，并计算每种水果的总销售量

6. 处理缺失值

在数据集中，缺失值是常见的问题。Pandas 提供了多种方法来处理这些缺失值。
如果在你的销售数据中，有些水果的销售量缺失，你可能想要删除这些记录。

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('fruits.csv')

# 查看缺失值情况
print(data.isnull().sum())

# 删除含有缺失值的行
cleaned_data = data.dropna()

# 查看处理后的数据
print(cleaned_data)

代码说明

data.isnull().sum()：检查每列的缺失值数量。
data.dropna()：删除含有缺失值的行。

7. 合并多个 DataFrame

在数据处理中，经常需要将多个数据集结合起来。Pandas 提供了灵活的合并功能。
假设你有两份数据，一个是水果销售清单，另一个是库存列表，你希望将这两个列表合并，以便找出哪些水果可用。

import pandas as pd

# 创建两个示例 DataFrame
sales_data = pd.DataFrame({'Fruit': ['Apple', 'Banana'], 'Sales': [150, 200]})
inventory_data = pd.DataFrame({'Fruit': ['Apple', 'Banana', 'Cherry'], 'Stock': [50, 30, 20]})

# 合并两个 DataFrame
merged_data = pd.merge(sales_data, inventory_data, on='Fruit', how='outer')

# 查看合并后的数据
print(merged_data)

代码说明

pd.merge(sales_data, inventory_data, on=‘Fruit’, how=‘outer’)：根据水果名称进行外连接合并。

8. 数据透视表

数据透视表是用于数据汇总和分析的一种有效工具，可以快速计算各类统计信息。
假设你想知道每种水果在不同商店的销售额，以便评估其表现。

import pandas as pd

# 创建示例数据
data = {
    'Store': ['Store A', 'Store A', 'Store B', 'Store B'],
    'Fruit': ['Apple', 'Banana', 'Apple', 'Banana'],
    'Sales': [100, 150, 200, 250]}
df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='Sales', index='Fruit', columns='Store', aggfunc='sum')

# 查看透视表
print(pivot_table)

代码说明

pd.pivot_table(df, values=‘Sales’, index=‘Fruit’, columns=‘Store’, aggfunc=‘sum’)：创建数据透视表，以汇总每种水果在不同商店的销售额。

9. 导入 Excel 文件

除了 CSV 文件，Pandas 还支持读取 Excel 文件，方便用户处理更多格式的数据。
假设你有一个 Excel 文件，其中详细记录了你的每月开支，你希望读取并分析这些数据。

import pandas as pd

# 读取 Excel 文件
data = pd.read_excel('monthly_expenses.xlsx', sheet_name='Sheet1')

# 查看前五行数据
print(data.head())

代码说明

pd.read_excel(‘monthly_expenses.xlsx’, sheet_name=‘Sheet1’)：读取指定工作表的 Excel 文件。

10. 导出到 Excel 文件

在数据处理完成后，我们往往需要将结果保存为 Excel 文件，便于分享和进一步分析。
假设你已经整理好了每月的开支数据，希望将其保存为一个新的 Excel 文件，以便于未来的查看和报表生成。

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Month': ['January', 'February', 'March'],
    'Expenses': [300, 400, 350]
}
df = pd.DataFrame(data)

# 将 DataFrame 导出到 Excel 文件
df.to_excel('monthly_expenses_report.xlsx', index=False)