数据分析之常用统计量与分布

众数、平均数和中位数

一般不选众数为统计量,只有数据非常干净的时候众数才有价值。

当数据对称时,我们选择均值,做模型做预测,都是均值,参数估计选用均值,非参用中位数,描述性统计右偏时选中位数;一般不会出现左偏,如二八定律。

正太分布偏度 skewness = 0,右偏 skewness > 0,一般大于1右偏较严重,左偏 skewness < 0

分布

 

正太分布:人的身高,自然界的分布

对数正太分布(右偏最严重的):收入、利润,描述性统计就用中位数;建模,建立回归,神经网络等就对数据去对数 ln 即可

泊松分布:网页点击量,排队队伍长度等

伽玛分布:灾难造成的损失,损失的金额

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
统计数据分析 本次培训要解决的问题 我们公司大部分设备验收时,客户都要求Cpk>1.33 什么是 Cpk? Cpk如何计算?为什么要>1.33? 有复检功能的设备,客户一般都要求要做GRR和相关性 为 什么要做GRR/相关性,如何做?怎么样才是好的GRR/相关性? Cpk, GRR/相关性都是通过对测数据的统计分析,来判定工艺、测系统的能力 本次培训要解决的问题 分析数据 , 我们要分析数据的什么? 数据的分布状态 和同类数据的比较, 如:同比, 环比 数据(data)就是数值,是通过观察、实验或计算得出的结果 数据的分类: 连续型数据(Continous data)--可以用测仪器测出的可以连续取值的数据,也叫计数据, 如:时间,压力,高度,长度等; 也称作Variable data 离散数据(Discrete data )--颜色, 班别,合格/不合格,缺陷类别,产品种类等, 也称作计数数据或属性 Attribute data 连续性数据能够比较敏感的反映过程的变化,可以用较少样本获得统计分析结论 什么是数据? 数据分析 表征数据的常用统计 平均值(Mean) EXCEL 计算公式 =average(x1,x2,....xn) 中位数(Median) ---一组数据中位置在中间的那个数 EXCEL 计算公式 =median(x1,x2,....xn) 平均值和中位数都是用以表征一组数据的中间值,平均数更为准确 数据分析 表征数据的常用统计 最大值(Maximum) EXCEL 计算公式 =max(x1,x2,....xn) 最小值(Minimum) EXCEL 计算公式 =min(x1,x2,....xn) 极差(Range) EXCEL 计算公式 =max(x1,x2,....xn) -min(x1,x2,....xn) 最大值、最小值和极差用以表征一组数据的分布范围 数据分析 标准偏差(Standard Deviation) 表征数据的常用统计 极差法 当样本数<10时, 极差法比较准 样本 总体 贝塞尔法 EXCEL 计算公式 =STDEV(x1,x2,....xn) =STDEVP(x1,x2,....xn) 数据分析 方差(Variance) 表征数据的常用统计 方差(Variance) Var(x)=s2 或 Var(x)= s2 标准偏差和方差是用以表征数据离散程 度的 假设尺寸链 c=a+b, a, b, c 的标准偏差分别是 sa, sb, sc, 则有: , 数据分析 通过数据判定过程能力 如何判定一组数据是好还是不好呢(过程能力的强弱)? 准确 精密 精准 Cp (Capability of Precision) 过程精密度 Ca (Capability of Accuracy) 过程准确度 Cpk (Process capability index) 过程能力指数 数据分析 通过数据判定过程能力 过程能力分析的假设前提是输出服从正态分布。因此过程是稳定的或统计受控的。 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态分布的概率密度为: 记作X~N(μ,s2). μ是正态分布的均值,s2是正态分布的方差 数据分析 通过数据判定过程能力 μ+/-3s 之外的概率只有0.27%,是小概率事件,因此我们将6s 范围视为过程的自然波动范围。为了把过程的自然输出能力和要求的公差进行比较,质专家朱兰引入了能力比的概念, 即Cp 对于只有规格上限 对于只有规格下限 对于有双边规格 Cp衡的是"规格公差宽度"与"与制程变异宽度"之比例; 数据分析 通过数据判定过程能力 对于只有规格上限或规格下限的, 因为没有中心值,所以也没有Ca Ca衡的是"实际平均值"与"规格中心"之一致性; 是数据的平均值, SL(Size Line)是规格中心,T 是公差宽度=USL-LSL 对于有双边规格 数据分析 通过数据判定过程能力 Cpk=Cp(1- Ca ) 对于单边规格的 Cpk=Cpu 或 Cpk=Cpl Cpk=Cp(1- Ca )= = = =Cpu 或者= =Cpl 所以 Cpk= min(Cpu, Cpl) 从公式可以看出, Cpk与平均值,标准偏差,以及产品的规格相关联 数据分析 通过数据判定过程能力 Cpk要多少才算好? 等级 Cpk值 处理原则 A+ 1.67 能力过剩考虑降低成本 A 1.33 Cpk<1.67 状态良好维持现状 B 1.00 Cpk<1.33 改进为 A 级 C 0.67 Cpk<1.00 制程不良较多,必须提升其能力 D Cpk <0.67 制程能力太差,应考虑重新整改设计制程 Cpk 每一百万件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值