统计正数和负数的个数然后计算这些数的平均值_描述性统计分析

最新推荐文章于 2024-08-19 21:59:44 发布

weixin_39612896

最新推荐文章于 2024-08-19 21:59:44 发布

阅读量955

点赞数

文章标签：统计正数和负数的个数然后计算这些数的平均值

1、概念

描述性统计：从总体数据中提取变量的主要信息（总和、均值等），对数据进行统计性描述。在统计的过程中，通常会配合绘制相关的统计图来进行辅助。

2、常用统计量：

（1）均值：即平均值，为一组数据的总和除以数据的个数。

缺点：容易被异常值影响

（2）中位数：将一组数据升序排列，位于该组数据最中间位置的值，就是中位数。若数据个数为偶数，则取中间两个数值的均值。

（3）众数：一组数据中出现最多的值。

（4）分位数：把所有数值由小到大排列并通过n-1个分位将数据划分为n个区间，使得每个区间的数值个数相等（或近似相等）。其中n为分位数的数量。常用四分位数。

以四分位为例：

四分位数应用：1. 箱线图； 2.识别出可能的异常值，对异常值进行检查和处理
第一四分位数 (Q1)，又称"较小四分位数"，等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2)，又称"中位数"，等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3)，又称"较大四分位数"，等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
最小估计值（下边缘）：Q1-k*IQR
最大估计值（上边缘）：Q3-k*IQR
k=1.5 中度异常
k=3极度异常

（5）标准差：体现一组数据中，每个元素与均值偏离的大小

其中：

：标准差
：数组中每个元素
n：数组元素的个数
：数组中所有元素的均值

标准差可以体现数据的波动性，标准差越大，数据波动越大，标准差越小，波动越小

（6）标准分：是对不同数据集中的数值进行比较的一种方法，这些数据集的均值和标准差互不相同。将不同数据集转换成一个理论上的新分布，这个分布的均值为0，标准差为1，转化后进行比较。

z值代表着原始分数（x）和母体平均值（

）之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。

3、计算

（1）EXCEL

平均值：AVERAGE
四分位数：QUARTILE
标准差：STDEV

（2）Python

均值：mean()

import numpy as np
date = np.arange(10)
print(date)
print(date.mean())

#  [0 1 2 3 4 5 6 7 8 9]
#  4.5

四分位数：使用numpy库

import numpy as np
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
print(np.quantile(x, q=[0.25, 0.5, 0.75]))
print(np.percentile(x, q=[25, 50, 75]))

'''
[10. 35. 54.]
[10. 35. 54.]
'''

标准差：std()

import pandas as pd
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
x = pd.Series(x)
print(x.std())

#  25.739075352467502

4、熟悉数据集

weixin_39612896

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫