python学习—数据处理

import pandas as pd
import numpy as np
df = pd.read_csv('C:\\Users\\len\\Desktop\\statistic_race\\pinganchanxian\\user_data.csv')
label = df.label
df = df.drop(['user_id','label'],axis = 1)#删除列,axis=1决定
df[:5]

1.数据处理的相关操作

规定缺失值列表

missset = [np.nan,99999999,-99999999]#将表示缺失值的方式统一放在missset列表中

计算一列中不重复的数据数量

count_1 = len(df.iloc[:,0].unique())#进行单列非重复数据数量
count_un = df.iloc[:,0:3].apply(lambda x:len(x.unique()))#对于多列的情况用apply函数
count_un
time_median    38
time_max       75
normal_time    92
dtype: int64

计算一列中0的数量

np.sum(df.iloc[:,0] == 0)#对于单列的处理方式
df.iloc[:,:3].apply(lambda x:np.sum(x == 0))#对于多列的处理方式
time_median    0
time_max       0
normal_time    2
dtype: int64

去除含缺失值的个案

dd = pd.read_excel('C:\\Users\\len\\Desktop\\test data.xls',sheet = 2)
miss = ['n.a']
dd.Price[~dd.Price.isin(miss)]#在此处运用了isin函数,~符号是取反的意思
np.mean(dd.iloc[:,3][~dd.iloc[:,3].isin(miss)])#计算去除缺失值后的均值是多少,此时是对单列进行操作,求最值得情况与此类似
#mean_mul = dd.iloc[:,:3].apply(lambda x:np.mean(x[~x.isin(miss)]))#计算多列去除缺失值后的均值,运用apply函数,同样的求中位数即用np.median
np.sum(dd.Price.isin(miss))#计算缺失值的个数

1

求众数

from scipy import stats   #可以运用scipy库中的stats求众数
df_mode = df.iloc[:,0:3].apply(lambda x:stats.mode(x[~x.isin(miss)])[0][0])#运用scipy中的stats.mode得到列的众数,此时返回的是众数及众数的数量
df_amount = df.iloc[:,0:3].apply(lambda x:stats.mode(x[~x.isin(miss)])[1][0])
print(df_mode)
df_mode_percent = df_amount/len(df)
print(df_mode_percent)
df_amount
time_median     6.0
time_max       52.0
normal_time     0.0
dtype: float64
time_median    0.13
time_max       0.03
normal_time    0.02
dtype: float64
time_median    13
time_max        3
normal_time     2
dtype: int64

求分位点,在求分位点时一般不能用apply函数进行多列数据进行同时求分位点,而是运用字典进行汇总得到分位点

np.percentile(df.iloc[:,0],(5,15,25,35,50,60,80,90))#通过分位点可以看出数据的整体分布
#df.iloc[:,:3].apply(lambda x:np.percentile(x,(5,15,25,35,50,60,80,90))) 此时此语法是行不通的
percent_dict = {}
for i,name in enumerate(df.iloc[:,:3].columns):
    #print('the {} the columns:{}').format(i,name)
    percent_dict[name] = np.percentile(df[name][~df[name].isin([np.nan])],(5,15,25,35,50,60,80,90))#运用字典将多列分位数进行统计
df_percent = pd.DataFrame(percent_dict)[df.iloc[:,:3].columns].T #指定了列的名称顺序
df_percent

频数分析

a = dd.iloc[:,0].value_counts().iloc[:5].index.values#可将频数最高的对一个的特征取出
#判断频数能不能超过若干个项目
def is_full_5(x):
    if len(x)<5:
        new_array = np.full(5,np.nan)
        new_array[0:len(x)] = x
        return new_array
    else:
        return x
car_name = {}
car_count = {}
for i,name in enumerate(dd.iloc[:,:2].columns):
    index_name = dd[name].value_counts().iloc[:5,].index.values
    index_name = is_full_5(index_name)
    car_name[name] = index_name
    index_count = dd[name].value_counts().iloc[:5,].values
    index_count = is_full_5(index_count)
    car_count[name] = index_count
name_car = pd.DataFrame(car_name)[dd.iloc[:,:2].columns].T
count_car = pd.DataFrame(car_count)[dd.iloc[:,:2].columns].T
count = pd.concat([name_car,count_car],axis = 1)
count

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值