Pandas常用函数总结

本文介绍了Python中常用的数据处理库如pandas和numpy的基本使用,包括数据导入导出、数据筛选、列操作、数据更新、字段类型转换、新增字段、数据连接以及分组统计等核心功能。通过实例展示了如何高效地进行数据清洗和预处理,是Python数据处理的入门教程。
摘要由CSDN通过智能技术生成

常用导入包

import numpy as np
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
from tqdm import tqdm # 进度条
#运行以下代码可以让Python不显示warnings
import warnings
warnings.filterwarnings("ignore")

输入、输出数据

(1)输入

data = pd.read_table(r"输入地址", 
                      sep=',', #分隔符,也可填\t
                      dtype="xxx", #字段类型
                      encoding="xxx" #可填gbk
                      )

注:常用的还包括pd.read_csv()、pd.read_excel()等。

(2)输出

data.to_csv(r"输出地址", sep=',',index=False)

查看数据信息

data.columns    #查看数据框的标签
data.info()     #查看数据框的信息

按条件筛选出欲保留行列

(1)筛选出欲保留的列

data = data[['列名1', '列名2', '列名3']]

(2)筛选出欲保留的行

①单条件筛选

data = data [data ["列名"]=="xxx"]

②isin()函数筛选

data = data [data ["列名"].isin([xxx,xxx,xxx])]

③多条件筛选

data = data [(data ["列名1"]=="xxx") & (data ["列名2"]=="xxx")]   #&为且,|为或
data = data [~(data ["列名"]=="xxx")]  #~为取反

按条件删除行

(1)删除所有含空值的行

data = data.dropna()

(2)删除“某列=指定值”行

data = data.drop(列名=['值1','值2'])

更新行数据

(1)更新指定行的数值

print(data[data['列名'] == 值])  
data.loc[data['列名'] , '列名'] = 更新值 

(2)将NaN替换为特定值

data= data.fillna(
    '更新值',  # NaN的替换值
    inplace=False  # 是否更换源文件
)
print(data)

修改标签名

data.rename(columns={'标签名1':'重命名1','标签名1':'重命名1'})

设置索引列

(1)以已有列作为索引列

data.set_index('已有列名',inplace = True) # inplace参数是否创建一个新的dataframe,默认false则创建新的dataframe,为true时修改原dataframe

(2)添加递增列作为索引列

data ['新增列名'] = range(len(data))
data.set_index('新增列名',inplace = True)

更改字段类型

data['列名']= data['列名'].astype('xxx')  #xxx可填float等

新增字段并计算

result['新增字段名']=result['列名1']-result['列名2']  #此处仅为展示语法

按关键字段连接

result = pd.merge(表A, 表B, on="关键字段")

分组统计

(1)按一列分组统计

result = data.groupby('分组列')['统计列']**.mean()**.rename('统计结果列命名').reset_index()

(2)按二列分组统计

tmp1 = station_data.groupby(["分组列1","分组列2"])['统计列'].mean().rename('统计结果列命名).reset_index()

mean()又可以更换为sum()、min()、max()等

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pandas有很多常用函数,用于处理和分析数据。其一些常用函数包括: 1. DataFrame函数:用于创建一个数据框,可以通过传入字典、列表、数组等不同的数据类型来创建数据框。 2. head函数:用于查看数据框的前几行,默认显示前5行。 3. tail函数:用于查看数据框的后几行,默认显示后5行。 4. shape函数:用于查看数据框的行数和列数。 5. describe函数:用于生成数据框数值列的统计描述,包括计数、均值、标准差、最小值、最大值等。 6. info函数:用于查看数据框的基本信息,包括列名、数据类型、非空值数量等。 7. drop函数:用于删除数据框的指定行或列。 8. groupby函数:用于按照指定的列对数据框进行分组,可以进行聚合操作,如求和、平均值等。 9. merge函数:用于将两个数据框按照指定的列进行合并。 10. sort_values函数:用于按照指定的列对数据框进行排序。 这些函数可以帮助我们快速处理和分析数据,提高工作效率。\[1\]另外,我们还可以使用apply函数来应用自定义的函数或lambda表达式,对数据框进行更复杂的操作。\[2\]同时,pandas库还提供了一些字符串处理函数,如numpy和matplotlib库的字符串处理函数,可以帮助我们对字符串进行统计、转换等操作。\[3\] #### 引用[.reference_title] - *1* *3* [python pandas常用函数常用代码](https://blog.csdn.net/qq_42751978/article/details/129763537)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Pandas的10个常用函数总结](https://blog.csdn.net/m0_46510245/article/details/120481221)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值