数值计算和统计基础

1.常用的数据、统计方法
1.np.nan:
	作用:空值

2.mean():
	作用:计算均值,可以通过索引单独统计一列
	注意:只统计数字列
	参数:
		axis参数:默认为0,以列来计算。axis=1则是以行来计算,按照行来汇总
		skipna参数:是够忽略NaN,默认True,False,有NaN的列统计结果扔为NaN

3.主要数学计算方法,可用于Series和DataFrame(1)
    df = pd.DataFrame({'key1':np.arange(10),
                      'key2':np.random.rand(10)*10})
    print(df)
    print('-----')

    print(df.count(),'→ count统计非Na值的数量\n')
    print(df.min(),'→ min统计最小值\n',df['key2'].max(),'→ max统计最大值\n')
    print(df.quantile(q=0.75),'→ quantile统计分位数,参数q确定位置\n')
    print(df.sum(),'→ sum求和\n')
    print(df.mean(),'→ mean求平均值\n')
    print(df.median(),'→ median求算数中位数,50%分位数\n')
    print(df.std(),'\n',df.var(),'→ std,var分别求标准差,方差\n')
    print(df.skew(),'→ skew样本的偏度\n')
    print(df.kurt(),'→ kurt样本的峰度\n')
    
4.主要数学计算方法,可用于Series和DataFrame(2)
    df['key1_s'] = df['key1'].cumsum()
    df['key2_s'] = df['key2'].cumsum()
    print(df,'→ cumsum样本的累计和\n')

    df['key1_p'] = df['key1'].cumprod()
    df['key2_p'] = df['key2'].cumprod()
    print(df,'→ cumprod样本的累计积\n')

    print(df.cummax(),'\n',df.cummin(),'→ cummax,cummin分别求累计最大值,累计最小值\n')
    # 会填充key1,和key2的值

5.唯一值:.unique()
	s = pd.Series(list('asdvasdcfgg'))
    sq = s.unique()
    print(s)
    print(sq,type(sq))
    print(pd.Series(sq))
    # 得到一个唯一值数组
    # 通过pd.Series重新变成新的Series

    sq.sort()
    print(sq)
    # 重新排序

6.值计数:.value_counts()
	sc = s.value_counts(sort = False)  # 也可以这样写:pd.value_counts(sc, sort = False)
    print(sc)
    # 得到一个新的Series,计算出不同值出现的频率
    # sort参数:排序,默认为True	
    
7.成员资格:.isin()
	s = pd.Series(np.arange(10,15))
    df = pd.DataFrame({'key1':list('asdcbvasd'),
                      'key2':np.arange(4,13)})
    print(s)
    print(df)
    print('-----')

    print(s.isin([5,14]))
    print(df.isin(['a','bc','10',8]))
    # 用[]表示
    # 得到一个布尔值的Series或者Dataframe
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值