推理统计与数值统计

本文介绍了数据分析中的关键概念,包括真实值、测量值、预测值及其区别,以及集中趋势(平均数、中位数)、离中趋势(全距、标准差)分析、相关分析和推论统计(尤其是假设检验)的应用。通过这些工具,可以对数据进行深入理解和预测总体特性。
摘要由CSDN通过智能技术生成

基本概念

真实值、测量值、预测值

1.真实值:数学意义上的真实值,是一个理想概念,测量到的总会有偏差,用 x i ( i 表示第 i 个样本) {x_i}(i表示第i个样本) xii表示第i个样本)进行表示。

2.测量值:通观测值是指通过测量或测定所得到的样本值,也常被称作观测值/实际值,用 x i ~ ( i 表示第 i 个样本) \tilde{x_i}(i表示第i个样本) xi~i表示第i个样本)进行表示。

3.预测值:使用已有数据作为训练集,通过建立数学模型,估计得到的数值,具有一定的假定性和近似性,使用 x i ^ \hat{x_i} xi^表示

4.总体(population):代表研究的所有数值,比如开展一项针对中国所有博士生的薪资问题,则总体为所有博士生的薪资待遇。

5.样本(sample):从总体中抽取的部分,如抽取了江苏地区的博士生进行研究。

数据分析方法

拿到一份数据后,应该使用哪些数学工具对数据进行分析,得到想要的结论,可以分为对数据的分布状态数字特征随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析离中趋势分析相关分析三大部分。

集中趋势分析

使用平均数、中数、众数等统计指标来表示数据的集中趋势,是衡量中间水平的指标。例如财富收入的二八定律,因二的人掌握了太多的财富,如果使用平均数作为衡量指标,则会有很多人达不到中间水平,若salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000],用中位数表示是3000,用平均数表示是9200。
因此,如果样本呈偏态分布,选择使用中位数衡量集中趋势。

离中趋势分析

一些写的比较好的博客,在这推荐给大家。
CSDN.blog
zhihu.blog
离中趋势分析主要靠全距(极差)、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。平均差的数学特性差,很少使用。
其中我不太清楚的为标准分

标准分

标准分的含义:表示数据偏离平均数有几个标准差;对数据归一化处理;标准分也叫做Z-分数、标准化值;计算公式:

Z = x n − μ σ Z=\displaystyle\frac{x_n-\mu}{\sigma} Z=σxnμ
1.比较不同体系的数据集;比较数值在各自的数据集中所占的位置。
在这里插入图片描述

2.标准分表示某个数值距离均值若干个标准差,常用于产品的质量管理中,如摩托罗拉和通用率先运用的“6西格玛”质量管理体系:
六西格玛
3.变异系数:为了处理两个数据集的比较分析,引入了变异系数;
在这里插入图片描述

相关分析

相关分析探讨数据之间是否具有统计学上的关联性。关联性包括但不限于:两个总体间的线性关系、非线性关系、关联紧密型。
衡量两变量共同变化的紧密程度——即相关系数。得出相关系数可以设定回归函数,进行A到B的估算。

为什么进行对数据进行这么多的特征分析?
最想达到的,就是利用这些特性参数,对总体的未知数据做出以概率形式来描述的推断。这便是推理统计学!也是建模中经常出现的问题。
推论统计:通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。

推理统计

推论统计分析包括假设检验、置信区间、效应量,分析步骤也是按照这个顺序进行,其中假设检验是重中之重,一下具有几个实例。
检验1
检验2
40068435)
检验2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值