目录
文件读取
try:
df_sheet=pd.read_csv(file_name, encoding='utf-8')
except UnicodeDecodeError:
df_sheet=pd.read_csv(file_name, encoding="gb18030")
数据统计
#数据分析
info(),describe(),head()
#数据统计
mean:平均值 X.列名.unique()/value_counts():内容统计
#获取不重复值
dataframe['xxx'].unique()
表格操作
#列名,重命名
zyd_df.rename(columns={"资源CUID":"机房/资源点CUID"},inplace=True)
数据标准化
#填充平均值
X_train["Age"].fillna(X_train["Age"].mean(),inplace=True)
数据筛选
#逻辑:loc["条件","列名"]
X_train.loc[X_train['Sex']=='female','Sex']=0
#删除筛选
df=df[ ~ df['站点类别'].str.contains('核心站点')]
#包含(正则表达式)
df['站点类别'].str.contains('同安|翔安')#或
df['站点类别'].str.contains('同安.*大同')#与
参考:
http://www.tuohang.net/article/264346.html
#删除重复项
df1.duplicated()#判断是否重复
bbu_data.drop_duplicates()#删除重复项
df1.drop_duplicates(['A'],inplace=True,keep='first')#根据某列删除重复项
#keep='first'(默认值):保留第一次出现的重复行,删除后续出现的相同值的行。
#keep='last':保留最后一次出现的重复行,删除之前的相同值的行。
数据连接
#关联vlookup
result = pd.merge(c_df,zd_df.loc[:,['所属站点','站点CUID']],how='left',on = '所属站点')
#连接
df_merge=pd.concat([df_merge,df_sheet],axis=0,ignore_index=True)
apply
df=df.apply(lambda x :x["A"], axis=1)