pandas学习笔记

目录

文件读取

数据统计

表格操作

数据标准化

数据筛选

数据连接

apply



文件读取

try:
    df_sheet=pd.read_csv(file_name, encoding='utf-8')
except UnicodeDecodeError:
    df_sheet=pd.read_csv(file_name, encoding="gb18030")

数据统计

​#数据分析
info(),describe(),head()

#数据统计
mean:平均值    X.列名.unique()/value_counts():内容统计​

#获取不重复值
dataframe['xxx'].unique()

表格操作

#列名,重命名
 zyd_df.rename(columns={"资源CUID":"机房/资源点CUID"},inplace=True)

数据标准化

#填充平均值
X_train["Age"].fillna(X_train["Age"].mean(),inplace=True) 

数据筛选

#逻辑:loc["条件","列名"]
X_train.loc[X_train['Sex']=='female','Sex']=0

#删除筛选
df=df[ ~ df['站点类别'].str.contains('核心站点')]

#包含(正则表达式)
df['站点类别'].str.contains('同安|翔安')#或
df['站点类别'].str.contains('同安.*大同')#与
参考:
http://www.tuohang.net/article/264346.html

#删除重复项
df1.duplicated()#判断是否重复
bbu_data.drop_duplicates()#删除重复项

df1.drop_duplicates(['A'],inplace=True,keep='first')#根据某列删除重复项
#keep='first'(默认值):保留第一次出现的重复行,删除后续出现的相同值的行。
#keep='last':保留最后一次出现的重复行,删除之前的相同值的行。

数据连接

#关联vlookup
result = pd.merge(c_df,zd_df.loc[:,['所属站点','站点CUID']],how='left',on = '所属站点')
  
#连接
df_merge=pd.concat([df_merge,df_sheet],axis=0,ignore_index=True)

apply

df=df.apply(lambda x :x["A"], axis=1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值