【思维导图】统计学知识大梳理

在这里插入图片描述
统计学(statistics):****收集、处理、分析、解释数据并从数据中得出结论的科学。
描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
中心极限法则:一个随机变量,不管是什么分布,当其样本足够大时,其均值不是原来的分布,而是自然分布。
所以并不是原来的变量的分布改变了,其实并没有变,只是他的均值满足自然分布而已。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
《九成以上研究者或无法正确理解p值》

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回归定义:
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。
在这里插入图片描述

在这里插入图片描述

在统计学中,线性回归方程是利用最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。

1. 相关系数的概念
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。
相关系数是用以反映变量之间相关关系密切程度的统计指标。
相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;
着重研究线性的单相关系数。
在这里插入图片描述
在这里插入图片描述

【文字稿】
在这里插入图片描述
线性回归分析的步骤如下:
(1)根据预测目标,确定自变量和因变量
围绕业务问题,明晰预测目标,从经验、常识、以往历史数据研究等角度,初步确定自变量和因变量。
(2)绘制散点图,确定回归模型类型
通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有线性相关关系,同时进行相关分析,根据相关系数判断自变量与因变量之间的相关程度和方向,从而确定回归模型的类型。
(3)估计模型参数,建立回归模型
采用最小二乘法进行模型参数的估计,建立回归模型。
(4)对回归模型进行检验
回归模型可能不是一次即可达到预期的,通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型。
(5)利用回归模型进行预测
模型通过检验后,应用到新的数据中,进行因变量目标值的预测。

文字版:

新手必看!统计学知识大梳理

你的“对象” 是谁?
o“对象”按照维度分为了两大类:统计学,概率论。
一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。
二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。
分析就像在给 “爱人” 画肖像
o“集中趋势—代表值”,“分散和程度”
对“数据”的描述性分析
o1.集中趋势量度:
为这批数据找到它们的“代表”

均值(μ)

均值的局限性
o“若用均值描述的数据中存在异常值的情况,会产生偏差”
中位数

中位数,又称中点数,中值。
o是按顺序排列的一组数据中居于中间位置的数。
众数
众数是样本观测值在频数分布表中频数最多的那一组的组中值。
o2.分散性与变异性的量度
全距=max-min
全距的局限性
o若数据中存在异常值的情况,会产生偏差
差
方差
标准差
标准分——表征了距离均值的标准差的个数
关于“事件”的研究分析
o1.一个事件的情况
事件:
有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。
概率:
每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!
概率分布:
我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。
期望:
表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。
(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)
方差:
表征了事件不同结果之间的差异或分散程度。
o2.细说分布
“离散型”数据和“连续性”数据差异
离散型分布
这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。
连续型分布
连续型分布本质上就是求连续的一个数据段概率分布。
正态分布
of(x)----是该关于事件X的概率密度函数
o
μ — 均值
o
σ^2 —方差
o
σ —标准差
o
绿色区域的面积 —该区间段的概率
o正态分布概率的求法
step1 — 确定分布和范围 ,求出均值和方差

step2 — 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)

step3 —查表找概率
o离散型分布 → 正态分布 (离散分布转化为正态分布)
o3.多个事件的情况:“概率树”和“贝叶斯定理”
多个事件就要探讨事件和事件之间的关系
对立事件:
o如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件

穷尽事件:
o如何A和B为穷尽事件,那么A和B的并集为1

互斥事件:
o如何A和B为互斥事件,那么A和B没有任何交集

独立事件:
o如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。
条件概率(条件概率,概率树,贝叶斯公式)
已知B事件发生的条件下,A事件发生的概率

概率树
o— 一种描述条件概率的图形工具。

贝叶斯公式 ----提供了一种计算逆条件概率的方法
o当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。
关于“小样本”预测“大总体”

o1.抽取样本

总体:
你研究的所有事件的集合;

样本:
总体中选取相对较小的集合,用于做出关于总体本身的结论;

偏倚:
样本不能代表目标总体,说明该样本存在偏倚;

简单随机抽样:
随机抽取单位形成样本。

分成抽样:
总体分成几组或者几层,对每一层执行简单随机抽样

系统抽样:
选取一个参数K,每到第K个抽样单位,抽样一次。
o2.预测总体(点估计预测,区间估计预测)
如何求置信区间?
图例
(t分布)
我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。
(卡方分布)
卡方分布的定义
o若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
卡方分布的应用场景
o
用途1:用于检验拟合优度。
也就是检验一组给定的数据与指定分布的吻合程度;
o
用途2:检验两个变量的独立性。
通过卡方分布可以检查变量之间是否存在某种关联:
o3.验证结果(假设检验)
假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。
两类错误
第一类错误:
o拒绝了一个正确的假设,错杀了一个好人

第二类错误:
o接收了一个错误的假设,放过了一个坏人
即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误

相关与回归(y=ax+b)
o线性回归
散点图:
显示出二变量数据的模式。

相关性:
变量之间的数学关系。

线性相关性:
两个变量之间呈现的直线相关关系。

最佳拟合直线:
与数据点拟合程度最高的线。
(即每个因变量的值与实际值的误差平方和最小)

误差平方和SSE:
o
线性回归法:
求最佳拟合直线的方法(y=ax+b),就是求参数a和b

斜率a公式:
b公式:

期望:

这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。

当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

关于“小样本”预测“大总体”

正态分布

“对象”按照维度分为了两大类:统计学,概率论。

(卡方分布)

标准差

斜率a公式:

标准分——表征了距离均值的标准差的个数

概率分布:

b公式:

图例

条件概率(条件概率,概率树,贝叶斯公式)

我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。

— 一种描述条件概率的图形工具。

假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

“集中趋势—代表值”,“分散和程度”

均值(μ)

对“数据”的描述性分析

两类错误

方差

关于“事件”的研究分析

参考文献:

  1. 新手必看!统计学知识大梳理(附框架图&公式)
  2. https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247499582&idx=1&sn=e9b250dd438e0433386e71db14d3d74f&chksm=e9e1f6b5de967fa30982c10b028d4b7d8d84e549c24a0ae8020c1314a3a2bf4889756aaf8b14&mpshare=1&scene=1&srcid=&sharer_sharetime=1582706620792&sharer_shareid=a12c15ddef863cf656d340c52b1b88f5#rd
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 很抱歉,我无法直接呈现思维导图,但是我可以为您列出一些统计学原理的主要知识点: 1. 描述性统计 - 中心趋势:平均数、中位数、众数 - 离散程度:范围、方差、标准差 2. 概率分布 - 正态分布 - t 分布 - 卡方分布 - F 分布 3. 抽样分布 - 样本均值的抽样分布 - 样本比例的抽样分布 4. 参数估计 - 点估计 - 区间估计 5. 假设检验 - 假设检验的步骤 - 单样本 t 检验 - 双样本 t 检验 - 方差分析 - 卡方检验 6. 相关与回归分析 - 相关分析 - 回归分析 - 多元回归分析 希望这些知识点能够对您有所帮助。 ### 回答2: 统计学原理是一门研究数据收集、整理、分析和解释的学科,它提供了一种方法,可以帮助我们从大量数据中找到有意义的信息和模式。以下是统计学原理的基本知识点的思维导图。 1. 数据类型:统计学中的数据可以分为定性数据和定量数据。定性数据是描述性的,无法进行计量,如性别、民族等。定量数据是数值型的,可以进行计量和数值操作,如身高、体重等。 2. 数据收集:数据收集是统计学研究的第一步。它涉及到确定研究对象、设计实验或调查问卷,并采集数据的过程。数据收集的方法包括实验、调查、观察等。 3. 描述统计:描述统计是对数据进行总结和描述的过程,它包括中心趋势和变异程度的度量。中心趋势指示数据的平均水平,包括均值、中位数和众数等。变异程度反映数据的离散程度,包括标准差、方差等。 4. 概率:概率是事件发生的可能性。它在统计学中有着重要的应用。概率包括条件概率、独立性、概率分布等。 5. 统计推断:统计推断是根据抽样数据来推断总体参数的过程。它包括估计和假设检验。估计是对总体参数进行估计的过程,包括点估计和区间估计。假设检验是对总体参数提出假设,并根据样本数据来判断这些假设是否成立。 6. 相关和回归分析:相关分析是研究两个变量之间的关系的统计方法,它用相关系数来度量变量之间的相关性。回归分析是研究因变量和自变量之间关系的统计方法,它通过拟合一个线性回归方程来预测因变量。 7. 抽样方法:抽样方法是从总体中选择样本的方法。常见的抽样方法包括简单随机抽样、分层抽样、系统抽样等。 以上是统计学原理的基本知识点的思维导图。这些知识点涵盖了统计学的主要内容,能够帮助我们理解和应用统计学的方法和技巧。 ### 回答3: 统计学原理知识思维导图如下: 1. 统计学基础 - 定义和目的 - 假设检验与推断 - 数据收集和整理 2. 描述统计学 - 数据的类型:定量和定性变量 - 中心趋势的测量:均值、中位数、众数 - 离散程度的度量:范围、方差、标准差 - 数据的呈现方式:表格、图表 3. 概率与概率分布 - 随机事件与样本空间 - 概率的基本性质 - 离散概率分布:二项分布、泊松分布 - 连续概率分布:正态分布、指数分布 4. 抽样与抽样分布 - 总体和样本的概念 - 抽样的方法:简单随机抽样、系统抽样、分层抽样 - 中心极限定理 - 抽样分布:t分布、χ²分布、F分布 5. 参数估计 - 点估计与区间估计 - 估计量的性质:无偏性、一致性、有效性 - 置信区间的计算与解读 - 样本量的确定 6. 假设检验 - 假设与原假设 - 显著性水平与拒绝域 - 类型I和类型II错误 - 常见的假设检验方法:正态总体均值、比例、方差的假设检验 7. 相关与回归分析 - 相关分析:皮尔逊相关系数、斯皮尔曼相关系数 - 回归分析:简单线性回归、多元线性回归 - 残差分析与模型检验 - 预测与解释变量的选择 这个思维导图涵盖了统计学原理的主要知识点,能够帮助人们系统地理解和学习统计学的基本概念和方法。通过对这些知识点的掌握,人们可以更好地理解和分析数据,并做出准确可靠的统计推断和决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

神经美学_茂森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值