pandas学习笔记

置顶 geniuscrh

已于 2023-11-12 13:23:48 修改

阅读量733

点赞数

分类专栏： inPython 文章标签：学习

于 2022-02-25 08:26:34 首次发布

本文链接：https://blog.csdn.net/geniuscrh/article/details/123124837

版权

inPython 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文件读取

try:
    df_sheet=pd.read_csv(file_name, encoding='utf-8')
except UnicodeDecodeError:
    df_sheet=pd.read_csv(file_name, encoding="gb18030")

数据统计

#数据分析
info(),describe(),head()

#数据统计
mean：平均值    X.列名.unique()/value_counts():内容统计

#获取不重复值
dataframe['xxx'].unique()

表格操作

#列名,重命名
 zyd_df.rename(columns={"资源CUID":"机房/资源点CUID"},inplace=True)

数据标准化

#填充平均值
X_train["Age"].fillna(X_train["Age"].mean(),inplace=True)

数据筛选

#逻辑：loc["条件","列名"]
X_train.loc[X_train['Sex']=='female','Sex']=0

#删除筛选
df=df[ ~ df['站点类别'].str.contains('核心站点')]

#包含(正则表达式)
df['站点类别'].str.contains('同安|翔安')#或
df['站点类别'].str.contains('同安.*大同')#与
参考:
http://www.tuohang.net/article/264346.html

#删除重复项
df1.duplicated()#判断是否重复
bbu_data.drop_duplicates()#删除重复项

df1.drop_duplicates(['A'],inplace=True,keep='first')#根据某列删除重复项
#keep='first'（默认值）：保留第一次出现的重复行，删除后续出现的相同值的行。
#keep='last'：保留最后一次出现的重复行，删除之前的相同值的行。

数据连接

#关联vlookup
result = pd.merge(c_df,zd_df.loc[:,['所属站点','站点CUID']],how='left',on = '所属站点')
  
#连接
df_merge=pd.concat([df_merge,df_sheet],axis=0,ignore_index=True)