Pandas常用操作——机器学习前的准备

pandas常用操作笔记

读取和储存

pd.read_csv('file.csv')#读取csv文件
pd.read_excel('file.xlsx')#读取xlsx文件
df.to_csv('output.csv',index=False,header=['列名1','列名2'],encoding='utf-8-sig')#储存为csv文件,encoding为了解码中文,header设置表头,index表示索引是否储存

数据预处理

df=pd.DataFrame(data,index,columns)#data填入数据,index表示索引默认0开始,columns为列名
df.drop_duplicates()#删除重复行
df.shape#查看结构
df.dtypes#查看数据类型
df.astype(int)#修改数据类型
df.fillna()#填充缺失值
df.dropna()#删除缺失值
df.apply(function,axis=1)#多列通过函数lambda操作
df['a'].map(function)#某一列函数操作

常用机器学习pd常用操作

parser = lambda x: pd.datetime.strptime(x, '%Y/%m/%d')#定义年月日函数
df=pd.read_csv('test.csv',parse_dates=['date'],date_parser=parser)#设置date列为日期格式
df.date.dt.month#取月
df.date.dt.year#取年
df.date.dt.day#取天
df.date.dt.dayofweek#周几
df.date.dt.dayofyear#年的第几天
df.date.dt.weekofyear#年中第几周
df.groupby(['a','b'])['c'].describe()#按照a,b列分组统计c列。
pd.merge(left,right,how='inner',on,left_on,right_on)#表拼接
left为在左边的表,inner或outer分别表示交集和并集,0n表示公共列(索引列),left_on为左表的连接键
pd.concat([df1,df2],axis=1,join='inner')#表拼接,join表示交集或并集,axis表示行拼接或者列拼接
df1.append(df2,ignore_index=True)#将df2拼接在df1下面,ignore_index表示是否索引重置
pd.cut(df['a'],[0,10,20,30],labels=['0-10','10-20','20-30'])#对a列进行分箱操作

常用数据筛选

df.head(10)#选取0-9列
df[1:10]#选取1到9列
df[df.columns[0,10]]#选取前10列
df[df['date']>'2019/1/1']#选取a列中2019/1/1之后的数据行

常用数据统计

df['sale'].value_counts()#显示各项的计数
df['占比']=df['数量']/df.groupby(['款型','月份'])['数量'].transform(sum)#求分组后各项数量占比
df.describe()#各列的多种统计描述
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值