统计正数和负数的个数然后计算这些数的平均值_描述性统计分析

1、概念

描述性统计:从总体数据中提取变量的主要信息(总和、均值等),对数据进行统计性描述。在统计的过程中,通常会配合绘制相关的统计图来进行辅助。

2、常用统计量:

(1)均值:即平均值,为一组数据的总和除以数据的个数。

缺点:容易被异常值影响

(2)中位数:将一组数据升序排列,位于该组数据最中间位置的值,就是中位数。若数据个数为偶数,则取中间两个数值的均值。

(3)众数:一组数据中出现最多的值。

(4)分位数:把所有数值由小到大排列并通过n-1个分位将数据划分为n个区间,使得每个区间的数值个数相等(或近似相等)。其中n为分位数的数量。常用四分位数。

以四分位为例:

  • 四分位数应用:1. 箱线图 ; 2.识别出可能的异常值, 对异常值进行检查和处理
  • 第一四分位数 (Q1),又称"较小四分位数",等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数 (Q2),又称"中位数",等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数 (Q3),又称"较大四分位数",等于该样本中所有数值由小到大排列后第75%的数字。
  • 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
  • 最小估计值(下边缘):Q1-k*IQR
  • 最大估计值(上边缘):Q3-k*IQR
  • k=1.5 中度异常
  • k=3极度异常

7a65f5364cd0e64392b84cee9e0ef7af.png

(5)标准差:体现一组数据中,每个元素与均值偏离的大小

其中:

  • :标准差
  • :数组中每个元素
  • n:数组元素的个数
  • :数组中所有元素的均值

标准差可以体现数据的波动性,标准差越大,数据波动越大,标准差越小,波动越小

(6)标准分:是对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。将不同数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1,转化后进行比较。

z值代表着原始分数(x)和母体平均值(

)之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。

3、计算

(1)EXCEL

  • 平均值:AVERAGE
  • 四分位数:QUARTILE
  • 标准差:STDEV

(2)Python

  • 均值:mean()
import numpy as np
date = np.arange(10)
print(date)
print(date.mean())

#  [0 1 2 3 4 5 6 7 8 9]
#  4.5
  • 四分位数:使用numpy库
import numpy as np
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
print(np.quantile(x, q=[0.25, 0.5, 0.75]))
print(np.percentile(x, q=[25, 50, 75]))

'''
[10. 35. 54.]
[10. 35. 54.]
'''
  • 标准差:std()
import pandas as pd
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
x = pd.Series(x)
print(x.std())

#  25.739075352467502

4、熟悉数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值