基本概念
真实值、测量值、预测值
1.真实值:数学意义上的真实值,是一个理想概念,测量到的总会有偏差,用 x i ( i 表示第 i 个样本) {x_i}(i表示第i个样本) xi(i表示第i个样本)进行表示。
2.测量值:通观测值是指通过测量或测定所得到的样本值,也常被称作观测值/实际值,用 x i ~ ( i 表示第 i 个样本) \tilde{x_i}(i表示第i个样本) xi~(i表示第i个样本)进行表示。
3.预测值:使用已有数据作为训练集,通过建立数学模型,估计得到的数值,具有一定的假定性和近似性,使用 x i ^ \hat{x_i} xi^表示
4.总体(population):代表研究的所有数值,比如开展一项针对中国所有博士生的薪资问题,则总体为所有博士生的薪资待遇。
5.样本(sample):从总体中抽取的部分,如抽取了江苏地区的博士生进行研究。
数据分析方法
拿到一份数据后,应该使用哪些数学工具对数据进行分析,得到想要的结论,可以分为对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
集中趋势分析
使用平均数、中数、众数等统计指标来表示数据的集中趋势,是衡量中间水平的指标。例如财富收入的二八定律,因二的人掌握了太多的财富,如果使用平均数作为衡量指标,则会有很多人达不到中间水平,若salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000],用中位数表示是3000,用平均数表示是9200。
因此,如果样本呈偏态分布,选择使用中位数衡量集中趋势。
离中趋势分析
一些写的比较好的博客,在这推荐给大家。
CSDN.blog
zhihu.blog
离中趋势分析主要靠全距(极差)、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。平均差的数学特性差,很少使用。
其中我不太清楚的为标准分。
标准分
标准分的含义:表示数据偏离平均数有几个标准差;对数据归一化处理;标准分也叫做Z-分数、标准化值;计算公式:
Z
=
x
n
−
μ
σ
Z=\displaystyle\frac{x_n-\mu}{\sigma}
Z=σxn−μ
1.比较不同体系的数据集;比较数值在各自的数据集中所占的位置。
2.标准分表示某个数值距离均值若干个标准差,常用于产品的质量管理中,如摩托罗拉和通用率先运用的“6西格玛”质量管理体系:
六西格玛
3.变异系数:为了处理两个数据集的比较分析,引入了变异系数;
相关分析
相关分析探讨数据之间是否具有统计学上的关联性。关联性包括但不限于:两个总体间的线性关系、非线性关系、关联紧密型。
衡量两变量共同变化的紧密程度——即相关系数。得出相关系数可以设定回归函数,进行A到B的估算。
为什么进行对数据进行这么多的特征分析?
最想达到的,就是利用这些特性参数,对总体的未知数据做出以概率形式来描述的推断。这便是推理统计学!也是建模中经常出现的问题。
推论统计:通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。
推理统计
推论统计分析包括假设检验、置信区间、效应量,分析步骤也是按照这个顺序进行,其中假设检验是重中之重,一下具有几个实例。
检验1
检验2
40068435)
检验2