【Pandas 统计函数和自定义函数的使用】

前言

Pandas 是基于 NumPy 的数据分析工具,它提供了各种数据结构,如 Series 和 DataFrame,以及各种功能强大的函数,用于数据的统计、清洗、处理和分析。

一、统计函数

1. 描述性统计

Pandas 提供了多种描述性统计函数,用于快速了解数据的基本情况,例如均值、标准差、最小值、最大值等。

import pandas as pd

# 创建一个示例 DataFrame
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [10, 20, 30, 40, 50]})

# 均值
mean = data.mean()
print("均值:")
print(mean)

# 标准差
std = data.std()
print("\n标准差:")
print(std)

# 最小值
min_val = data.min()
print("\n最小值:")
print(min_val)

# 最大值
max_val = data.max()
print("\n最大值:")
print(max_val)

2. 直方图

import pandas as pd
import matplotlib.pyplot as plt

# 创建一个示例 DataFrame
data = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]})

# 绘制直方图
data['A'].plot(kind='hist', bins=4, edgecolor='k')
plt.title('Histogram of A')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

二、自定义函数

除了内置的统计函数,还可以创建自定义函数来处理数据。这些自定义函数可以根据需求进行定制,以执行特定的数据操作。

1. 自定义函数示例

创建一个自定义函数,将工资大于某个阈值的员工标记为高工资,否则标记为低工资。

import pandas as pd

# 创建示例 DataFrame
data = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                     'Salary': [60000, 75000, 48000, 90000]})

# 自定义函数
def categorize_salary(salary):
    if salary > 60000:
        return '高工资'
    else:
        return '低工资'

# 应用自定义函数并创建新列
data['Salary_Category'] = data['Salary'].apply(categorize_salary)

print(data)

总结

Pandas 中的统计函数可以帮助我们快速了解数据的基本统计信息,而自定义函数则允许我们根据具体需求对数据进行灵活的处理。

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Pandas是Python中最受欢迎的模块之一,它在数据科学社区中被广泛使用。它提供了许多常用的函数来进行数据操作、清理和分析。以下是一些常用的Pandas函数: 1. read_csv:用于从CSV文件读取数据并创建DataFrame。 2. head:返回DataFrame的前几行数据。 3. tail:返回DataFrame的后几行数据。 4. shape:返回DataFrame的行数和列数。 5. info:提供DataFrame的基本信息,包括列名、数据类型和非空值的数量。 6. describe:提供DataFrame中数值列的统计摘要,包括计数、均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。 7. drop_duplicates:去除DataFrame中的重复行。 8. isnull:检查DataFrame中的缺失值。 9. fillna:填充DataFrame中的缺失值。 10. dropna:删除DataFrame中包含缺失值的行或列。 11. rename:重命名DataFrame的列名。 12. set_index:将DataFrame的列设置为索引。 13. reset_index:重置DataFrame的索引。 14. groupby:按照指定的列或多个列对DataFrame进行分组。 15. merge:根据指定的列将两个DataFrame合并为一个。 16. sort_values:按照指定的列对DataFrame进行排序。 17. apply:对DataFrame的每一列或每一行应用自定义函数。 18. plot:绘制DataFrame中的数据图形。 19. to_csv:将DataFrame保存为CSV文件。 20. drop:删除DataFrame中的指定列或行。 这些常用函数可以帮助我们完成80%以上的任务,并且可以通过Pandas的文档进一步了解更多关于grouping、merging等参数较多且常用的函数,这将对我们的工作有很大的帮助。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [深度盘点:整理100个 Pandas 常用函数](https://blog.csdn.net/weixin_38037405/article/details/124054985)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [这20个Pandas函数一定要牢记,建议收藏!!](https://blog.csdn.net/weixin_43373042/article/details/129631001)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

武帝为此

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值