dataframe常用方法

最新推荐文章于 2024-06-12 21:10:34 发布

故乡的那片天

最新推荐文章于 2024-06-12 21:10:34 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/mm445296564/article/details/106098509

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

创建

#coef 和 item_id 类型为list
result = {"coef": coef, "cd_item": item_id}
result_data = pd.DataFrame(result)

更新

df['cla'] = 1
df.loc[df['cd_cgca'] == 'K', 'cla'] = 2
df.loc[(df['cd_cgca'] == 'A') | (df['cd_cgca'] == 'B'), 'cla'] = 3
df.loc[df['item_cost_e'] * 3 < 2, 'item_cost_max'] = df['item_cost_e'] * 3

去重

#根据项目编码去重, 保留第一个
df = df.drop_duplicates(subset=['cd'], keep='first')  
#某一列去重
cla_list = df['cla'].drop_duplicates().values.tolist()

排序

#根据编码升序排序
df.sort_values(by=['cd'], ascending=True, inplace=True)  
df.sort_values(by=['cla', 'cd_item'], ascending=(True, True), inplace=True)

过滤

#排除编码为*的数据
item = item[~item['cd_item'].isin(['*'])]  
df_m_d_suc = df_m_d[df_m_d['cd_item'].isin(item_list)]
#排除类型为A、B、I的数据
detail_other = detail.loc[(detail['cd_cgca'] != 'A')& (detail['cd_cgca'] != 'B') & (detail['cd_cgca'] != 'I')]
#得到类型为A或B或I的数据
detail_other = detail.loc[(detail['cd_cgca'] == 'A') | (detail['cd_cgca'] == 'B') | (detail['cd_cgca'] == 'I')]
#保留奇数行，删除偶数行
df=df[df.index%2==0]
#保留偶数行，删除奇数行
df=df[df.index%2==1]
#生成列表实现筛选，保留奇数行，删除偶数行
df=df[[i%2==0 for i in range(len(df.index))]]
#保留偶数行，删除奇数行
df=df[[i%2==1 for i in range(len(df.index))]]

按某几列汇总

#按日期、科室汇总金额，汇总后共四列'month', 'cd_dept', 'na_dept'
amt = detail.groupby(['month', 'cd_dept', 'na_dept'], as_index=False)['amt'].sum()

合并

#通过'month', 'cd_dept'把两个df合并到一起
amt_marge = pd.merge(amt, amt_other, on=['month', 'cd_dept'])

重命名某一列的名称

 # amt重命名为amt_oth
amt_other.rename(columns={'amt': 'amt_oth'}, inplace=True)

选取某几列

detail = df[['day', 'cd_dept', 'na_dept', 'amt', 'cd_cgca']]

删除列

dept = item.drop(['cd_item', 'quan', 'cd_cgca', 'cla'], axis=1)

行转列

#按月、科室、项目汇总数量
item_quan = item.groupby(['month', 'cd_dept', 'cd_item'], as_index=False)['quan'].sum()
#项目转换为列
tem_quan_unstack = item_quan.set_index(['month', 'cd_dept', 'cd_item']).unstack('cd_item')['quan']
#合并
dept_item = pd.merge(dept, item_quan_unstack, on=['month', 'cd_dept'])

在这里插入图片描述

值为空的为填充0

dept_item = dept_item.fillna(0)

两列不同类型的值拼接在一起

#month是int, cd_dept是str
item_quan['month_dept'] = item_quan['month'].map(str) + '_' + item_quan['cd_dept']

遍历每一行

for row in item.itertuples():
      cd_item = getattr(row, 'cd_item')

得到所有的列名

columns = item_param.columns
columns = list(df_item)

列的均值, 求和

df['num'].mean()
df['num'].sum()

重置索引

df_cla = df_cla.reset_index(drop=True)

多个df拼接在一起

df_cla_list = []
    for cla in cla_list:
        df_cla = df.loc[(df['cla'] == cla)]
        df_cla_list.append(df_cla)

df_all = pd.concat(df_cla_list)

插入一列

series_column = df_all[column]
df_all = df_all.drop(column, axis=1)
df_all.insert(i, column, series_column)

df转dict

cost_dict = df_dept_amt.set_index('month_dept')['cost_oth'].to_dict()

更改某一列值的数据类型

 #将该列数据变为字符串
df[u'firstSeenSrcPort'].astype('string')

行数和列数

df.shape[0] #行数
df.shape[1] #列数

取行、列、切片、统计特征值

import numpy as np
from pandas import DataFrame
import pandas as pd
 
 
df=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','thr'],columns=list('abcd'))
 
df['a']#取a列
df[['a','b']]#取a、b列
 
#ix可以用数字索引，也可以用index和column索引
df.ix[0]#取第0行
df.ix[0:1]#取第0行
df.ix['one':'two']#取one、two行
df.ix[0:2,0]#取第0、1行，第0列
df.ix[0:1,'a']#取第0行，a列
df.ix[0:2,'a':'c']#取第0、1行，abc列
df.ix['one':'two','a':'c']#取one、two行，abc列
df.ix[0:2,0:1]#取第0、1行，第0列
df.ix[0:2,0:2]#取第0、1行，第0、1列
 
#loc只能通过index和columns来取，不能用数字
df.loc['one','a']#one行，a列
df.loc['one':'two','a']#one到two行，a列
df.loc['one':'two','a':'c']#one到two行，a到c列
df.loc['one':'two',['a','c']]#one到two行，ac列
 
#iloc只能用数字索引，不能用索引名
df.iloc[0:2]#前2行
df.iloc[0]#第0行
df.iloc[0:2,0:2]#0、1行，0、1列
df.iloc[[0,2],[1,2,3]]#第0、2行，1、2、3列
 
#iat取某个单值,只能数字索引
df.iat[1,1]#第1行，1列
#at取某个单值,只能index和columns索引
df.at['one','a']#one行，a列

按条件取行

# 选取等于某些值的行记录 用 ==
df.loc[df[‘column_name’] == some_value]
 
# 选取某列是否是某一类型的数值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
 
# 多种条件的选取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]
 
# 选取不等于某些值的行记录 用 ！=
df.loc[df[‘column_name’] != some_value]
 
# isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df[‘column_name’].isin(some_values)]

# 取完之后替换
df.ix[df['sex']=='f','sex']=0
df.ix[df['sex']=='m','sex']=1

删除特定行

# 要删除列“score”<50的所有行：
df = df.drop(df[df.score < 50].index)
 
df.drop(df[df.score < 50].index, inplace=True)
 
# 多条件情况
# 可以使用操作符： | 只需其中一个成立, & 同时成立, ~ 表示取反，它们要用括号括起来。
# 例如删除列“score<50 和>20的所有行
df = df.drop(df[(df.score < 50) & (df.score > 20)].index)

故乡的那片天

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
dataframe常用方法

创建#coef 和 item_id 类型为listresult = {"coef": coef, "cd_item": item_id}result_data = pd.DataFrame(result)更新df['cla'] = 1df.loc[df['cd_cgca'] == 'K', 'cla'] = 2df.loc[(df['cd_cgca'] == 'A') | (df['cd_cgca'] == 'B'), 'cla'] = 3df.loc[df['item_cost_.
复制链接

扫一扫