数据分析项目合集(Day1)——数据预处理

df = pd.read_csv('文件地址')

pd.read_csv(’ 文件地址 ‘,header=None, sep='\s+',names=['    ','    ','    ' ])

#header把第一行单独列出来,sep按照空格隔开

df.shape #基本形状

df.index #索引 

df.columns #索引列

df.dtype #某列数据类型

df.info() #查看总体情况

df['   '].count() #某列数量

df['   '].value() # 某列的值

df['   '].value_count() #某列值的数量

df['   '].unique() #唯一值

df['   '].nunique() #唯一值的数量

df.isnull().sum()  #缺失值数量

df.notnull().sum()  #非缺失值数量

df['   '].head() ,type(df['   ']) #某列取值

df[['   ','   ']].head() ,type(df[['   ','   ']])#多列取值

###相关性

df['   '].var() #方差 

df['   '].std() #标准差

###汇总统计

df.sum() #每一列相加

df[[’  ‘].cumsun().head() #逐行累加

df.max()   df.min() #最大值 最小值

df.idxmax()   df.idxmin() #最大值 最小值索引

df.mean()   df.median() #平均值 中位数

df.describe().T  #汇总统计  转置

df.describe().iteritems() #取列的名称和数据

###数据抽样

data = df.sample(n= 5,replace=False) #replace允许或者不允许对同一进行采样

 pandas中的应用函数apply

df['   '].apply()

合并数据

df_1=pd.concat(objs = [df1,df2,df3],axis = 0) #合并数据,以行维度进行合并

df_1.sample(n=7,replace False) #随机不放回抽样7个

df_2= pd.merge(left=df1,right=df2,on='  ',how='  ')

索引问题

df.set_index([keys=' ']) #设置索引

d.reset_inedx(inplace = True) #取消索引

d.iloc[  : ,  :   ].head #前五行数据

排序问题

df.sample(n=5,replace = False) #通过随机不放回抽样5个数据

data.sort_index 

df.sort_values(by=[''] ,ascending=[ ])  #指定列的值排序

重复值处理

df.duplicated(subset=['  '] ,keep='  ' ,head()) #查找重复值

df.drop_duplicated(subset=['  '] ,keep='  ' ,head().iloc()) #删除重复值

df.drop_index.duplicated() #查找重复索引

数据分组

df.groupby(by=['地区'], as_index=True).agg(' 年份 ' : ['  ','  ','  ']).head()  #制定一列是聚合列

df.groupby(by=['地区'], as_index=True).年份.agg(['  ','  ','  ']).head() 

处理缺失值

df.isnull().sum #查找所有数据的缺失情况

df.dropna().isnull().sum() #删除缺失值数据

df.fillna(method=' ffill ' ).head()  #使用前一个值填充

df.fillna(method=' bfill ' ).head()   #使用后一个值填充

其他

pd.to_datatime(df['     '], format=' %Y%m%d  ') #将int类型转化成时间类型datetime

 agg(['   ' ,'   ' ]) #对分组后的结果进行指定聚合

df.pivot_table(index = '   ',aggfunc = { '  ' :  ' 操作 '} )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值