pandas基础

最新推荐文章于 2022-01-26 16:46:13 发布

塔塔的守护者

最新推荐文章于 2022-01-26 16:46:13 发布

阅读量319

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_41004352/article/details/108036999

版权

数据分析专栏收录该内容

7 篇文章 0 订阅

订阅专栏

import numpy as np

import pandas as pd

df = pd.DataFrame()
#排序
#按索引排序
df.sort_index()
#按值排序
df.sort_values(by='')

#选择某些行或列
#按切片选择：[]中可以是数字索引，为前闭后开；也可以是名称，为前闭后闭
#只能用列名显示某一列，或者用范围显示某些行，不能同时选择行和列。
df[]
#按标签选择：用.loc,[]内只能用行或列的名称，范围为前闭后闭，可以对行或列任意选取,也可显示标量值，即某一点
df.loc[]
#选择某一点，即为标量值，只能用名称表示
df.at[]
#按位置选择：.iloc，只能用数字表示，范围为前闭后开，可以对行或列任意选取,也可显示标量值，即某一点
df.iloc[]
#选择某一点，即为标量值,用数字表示
df.iat[]
#按布尔索引：[]内为条件，满足该条件为True,不满足就为False,显示的是索引为True的值
df[条件]
#函数isin()：isin()括号内应为object类型的,得到的也是布尔类型
df[df.某列.isin([''])]

#赋值
pd.Series([],index=)
#确定位置后就直接赋值即可

#缺失值处理
#删除,参数how='any'或'all'，axis=0或1，可设置阈值为多少个非np.nan等
df.dropna()
#填充
df.fillna()
#与缺失值相关的函数：pd.isna(df)和pd.notna(df)

#统计
df.mean()
#移动
pd.Series().shift()
#加减乘除.sub等
df.add()

#Apply函数
#累加求和
df.apply(np.cumsum)
#求该列中各元素出现次数
df[某列].value_counts()

#字符串方法,需为object类型
#转为小写
df[某列].str.lower()
#转为大写
df[某列].str.upper()
#替换
df[某列].str.replace()

#结合,默认是增加行
pd.concat()
#连接，默认是增加列,默认是内连接
pd.merge()
#追加,增加行
df.append()

#分组,然后求和
df.groupby('某列').sum()

#堆叠
#默认将多列压缩为一列，变为多行
df.stack()
#逆操作
df.unstack()

#数据透视表
pd.pivot_table()

#时间序列,注意参数freq
pd.date_range()
#降采样然后求和
df.resample(时间段).sum()
#将datetimeindex转为periodindex
df.to_period()
df.to_timestamp()


#转换类型
df[某列].astype()

#数据输入和输出
df.to_csv()
df.read_csv()
df.to_excel()
df.read_excel()

#删除列
del df[某列]
df.pop(某列)

#在表中插入列
df.insert()

#利用现有的列创建新列
df.assign()

#函数应用
#表级函数应用:pipe()
#行列级函数应用：apply(),应用单个函数
#聚合api:agg([])，应用多个函数
#聚合函数：transform()
#元素级函数应用：applymap()


#.dt访问器
#对于datetime64类型的列处理
s.dt.hour或s.dt.day
#列.dt.strftime把datetime的值转成字符串类型进行格式化
s.dt.strftime(%Y/%m/%d)

塔塔的守护者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas基础

import numpy as npimport pandas as pddf = pd.DataFrame()#排序#按索引排序df.sort_index()#按值排序df.sort_values(by='')#选择某些行或列#按切片选择：[]中可以是数字索引，为前闭后开；也可以是名称，为前闭后闭#只能用列名显示某一列，或者用范围显示某些行，不能同时选择行和列。df[]#按标签选择：用.loc,[]内只能用行或列的名称，范围为前闭后闭，可以对行或列任意选取,也可显示标...
复制链接

扫一扫