Pandas常用函数总结

Pandas常用函数总结

对一组数据的了解:一组数据表达一个或多个含义!这是一个有损低提取数据特征的过程

  • 基本统计(含排序)

  • 分布/累计统计

  • 数据特征–相关性、周期性等

  • 数据挖掘(形成知识)

  • 数据排序

    • .sort_index方法在指定轴上根据索引进行排序,默认升序.降序可将参数ascebding改为False;默认0轴,可通过axis参数修改

    函数原型:.sort_index(axis=0,ascending=True)

    • .sort_value方法在指定轴上根据数值进行排序,默认升序.默认0轴.同理,通过修改参数可改变排序方式.

    两种对象的函数原型

    • Series.sort_value(axis=0,ascending=True)
    • DataFrame.sort_value(by,axis=0,ascending=True)

    by参数:axis轴上的某个索引或索引列表

  • 基本的统计分析函数

方法说明
.sum计算数据的总和,按0轴计算
.count计算非nan值的数量
.mean() .median()计算数据的算术平均值、算术中位数
.var .std计算数据的方差,标准差
.min .max计算数据的最小值,最大值
  • 仅适用于Series类型
方法说明
.argmin() .argmax()计算数据最小值,最大值所在位置的索引(自动索引)
.idxmin() .idxmax()计算数据最小值,最大值所在位置的索引(自定义索引)
  • 适用于Series和DataFrame类型
方法说明
.describe针对0轴(各列)的统计汇总

该方法生成一个Series对象

from pandas import Series,DataFrame
import pandas as pd
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
   ...: 'year':[2000,2001,2002,2003,2004,2005],
   ...: 'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
   ...: frame = pd.DataFrame(data)
frame.describe()
Out[15]: 
              year       pop
count     6.000000  6.000000
mean   2002.500000  2.550000
std       1.870829  0.836062
min    2000.000000  1.500000
25%    2001.250000  1.875000
50%    2002.500000  2.650000
75%    2003.750000  3.125000
max    2005.000000  3.600000

还可以使用iloc方法获取某一方面的信息:

#获取行数据
frame.describe().iloc[1]
Out[24]: 
year    2002.50
pop        2.55
Name: mean, dtype: float64

#获取列数据
frame.describe().iloc[:,1]
Out[25]: 
count    6.000000
mean     2.550000
std      0.836062
min      1.500000
25%      1.875000
50%      2.650000
75%      3.125000
max      3.600000
Name: pop, dtype: float64

  • 适用于Series和DataFrame的累计分析函数
方法说明
.cumsum依次给出前1,2,3,…,n个数的和
.cumprod依次给出前1,2,3,…,n个数的积
.cummin依次给出前1,2,3,…,n个数中的最小值
.cummax依次给出前1,2,3,…,n个数中的最大值
  • 适用于Series和DataFrame的滚动计算函数
方法说明
.rolling(w).sum()依次计算相邻w个元素的和
.rolling(w).mean()依次计算相邻w个元素的算术平均值
.rolling(w).var()依次计算相邻w个元素的方差
.rolling(w).std()依次计算相邻w个元素的标准差
.rolling.min() max()依次计算w个元素的最小值,最大值

如果该个元素前不够w-1个元素,该行元素将被赋值为Nan

  • 相关分析

判断两个事物的相关性

  • x增大,y增大–正相关
  • x增大,y减小–负相关
  • x增大,y无视–不相关

一、协方差方法(相对不太准确)

两个事物,表示为X和Y,如何判断它们的相关性?公式如下:

c o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) − ( Y i − Y ‾ ) n − 1 cov(X,Y) = \frac{\sum_{i=1}^{n} {(X_i-\overline{X})-(Y_i-\overline{Y})}}{n-1} cov(X,Y)=n1i=1n(XiX)(YiY)

  • 协方差>0–X和Y正相关
  • 协方差<0–X和Y负相关
  • 协方差=0–X和Y不相关

二、Pearson相关系数(比较准确)

r = ∑ i = 1 n ( X i − X ‾ ) − ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 r = \frac{\sum_{i=1}^{n} {(X_i-\overline{X})-(Y_i-\overline{Y})}}{\sqrt{\sum_{i=1}^{n} {(X_i-\overline{X})^2}} \sqrt{\sum_{i=1}^{n} {(Y_i-\overline{Y})^2}}} r=i=1n(XiX)2 i=1n(YiY)2 i=1n(XiX)(YiY)

  • 注意:r取值范围在[-1,1],对r值取绝对值后:

    • 0.8-1.0 极强相关
    • 0.6-0.8 强相关
    • 0.4-0.6 中等程度相关
    • 0.2-0.4 弱相关
    • 0.0-0.2 极弱相关或无相关
  • 适用于Series和DataFrame的相关分析函数

方法说明
.cov()计算协方差矩阵
.corr()计算相关系数矩阵,Pearson、Spearman、Kendall等系数
pandas库中有很多常用函数,用于处理和分析数据。其中一些常用函数包括: 1. DataFrame函数:用于创建一个数据框,可以通过传入字典、列表、数组等不同的数据类型来创建数据框。 2. head函数:用于查看数据框的前几行,默认显示前5行。 3. tail函数:用于查看数据框的后几行,默认显示后5行。 4. shape函数:用于查看数据框的行数和列数。 5. describe函数:用于生成数据框中数值列的统计描述,包括计数、均值、标准差、最小值、最大值等。 6. info函数:用于查看数据框的基本信息,包括列名、数据类型、非空值数量等。 7. drop函数:用于删除数据框中的指定行或列。 8. groupby函数:用于按照指定的列对数据框进行分组,可以进行聚合操作,如求和、平均值等。 9. merge函数:用于将两个数据框按照指定的列进行合并。 10. sort_values函数:用于按照指定的列对数据框进行排序。 这些函数可以帮助我们快速处理和分析数据,提高工作效率。\[1\]另外,我们还可以使用apply函数来应用自定义的函数或lambda表达式,对数据框进行更复杂的操作。\[2\]同时,pandas库还提供了一些字符串处理函数,如numpy和matplotlib库中的字符串处理函数,可以帮助我们对字符串进行统计、转换等操作。\[3\] #### 引用[.reference_title] - *1* *3* [python pandas常用函数常用代码](https://blog.csdn.net/qq_42751978/article/details/129763537)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Pandas的10个常用函数总结](https://blog.csdn.net/m0_46510245/article/details/120481221)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绿豆蛙给生活加点甜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值