统计学核心概念梳理
【表格】统计学核心概念梳理
序号 | 概念 | 描述 | 公式/定义 | 关键点 |
---|---|---|---|---|
1 | 统计学 | 收集、处理、分析、解释数据并从数据中得出结论的科学 | - | 研究数据的学科 |
2 | 描述统计 | 研究数据收集、处理和描述的统计学方法 | - | 展示数据特征,不涉及推断 |
3 | 推断统计 | 利用样本数据推断总体特征的统计学方法 | - | 从样本到总体的推断 |
4 | 中心极限定理 | 当样本量足够大时,样本均值的分布趋近于正态分布 | - | 无论原始分布如何 |
5 | 线性回归 | 利用最小二乘法对自变量和因变量关系建模的回归分析 | y = a x + b y = ax + b y=ax+b | 研究变量间线性关系 |
6 | 相关系数 | 反映变量间相关程度的统计指标 | r = n ( ∑ x y ) − ( ∑ x ) ( ∑ y ) [ n ∑ x 2 − ( ∑ x ) 2 ] [ n ∑ y 2 − ( ∑ y ) 2 ] r = \frac{n(\sum xy) - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}} r=[n∑x2−(∑x)2][n∑y2−(∑y)2]n(∑xy)−(∑x)(∑y) | 衡量线性相关强度 |
7 | 均值(Mean) | 数据集的平均值 | x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1∑i=1nxi | 数据中心趋势的度量 |
8 | 中位数(Median) | 数据排序后位于中间的数 | - | 对异常值不敏感 |
9 | 众数(Mode) | 数据集中出现次数最多的数 | - | 表示数据集中最常见的值 |
10 | 方差(Variance) | 各数据与其均值的差的平方的平均数 | s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2 s2=n−11∑i=1n(xi−xˉ)2 | 数据分散程度的度量 |
11 | 标准差(Standard Deviation) | 方差的平方根 | s = s 2 s = \sqrt{s^2} s=s2 | 数据分散程度的标准量度 |
12 | 概率分布 | 描述了随机变量所有可能取值及其对应的概率 | P ( X = x ) P(X=x) P(X=x) | 描述随机现象的数学模型 |
13 | 正态分布 | 自然界和社会现象中最常见的一种连续概率分布 | f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π1e−2σ2(x−μ)2 | 均值μ,标准差σ |
14 | 假设检验 | 基于样本数据对总体参数的某个假设进行检验的方法 | H 0 : θ = θ 0 H_0: \theta = \theta_0 H0:θ=θ0 vs H 1 : θ ≠ θ 0 H_1: \theta \neq \theta_0 H1:θ=θ0 | 判断假设是否成立 |
核心结论:统计学是一门研究数据的科学,通过描述统计和推断统计两种方法,对数据进行收集、处理、分析和解释。其中,中心极限定理、线性回归、相关系数等核心概念在数据分析中发挥着重要作用。同时,概率论中的正态分布、假设检验等理论也为统计学提供了坚实的理论基础。
几个公式:
- 线性回归方程: y = a x + b y = ax + b y=ax+b
- 相关系数公式: r = n ( ∑ x y ) − ( ∑ x ) ( ∑ y ) [ n ∑ x 2 − ( ∑ x ) 2 ] [ n ∑ y 2 − ( ∑ y ) 2 ] r = \frac{n(\sum xy) - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}} r=[n∑x2−(∑x)2][n∑y2−(∑y)2]n(∑xy)−(∑x)(∑y)
- 正态分布概率密度函数: f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π1e−2σ2(x−μ)2
关键点关系描述:
- 统计学是研究数据的科学,包括描述统计和推断统计两种方法。
- 描述统计主要用于展示数据的特征,如均值、中位数、众数等,不涉及对总体的推断。
- 推断统计则利用样本数据推断总体的特征,如假设检验、参数估计等。
- 中心极限定理是统计学中的一个重要定理,它说明了当样本量足够大时,样本均值的分布趋近于正态分布。
- 线性回归是一种常用的数据分析方法,用于研究自变量和因变量之间的线性关系。
- 相关系数用于衡量变量之间的线性相关程度,是回归分析中的重要指标。
- 正态分布是自然界和社会现象中最常见的一种连续概率分布,具有广泛的应用。
参考文献:
-
贾俊平, 何晓群, 金勇进. (2018). 统计学(第七版). 中国人民大学出版社.
- 本书详细介绍了统计学的基本概念、方法和应用,适合初学者入门。
-
Agresti, A. (2013). An Introduction to Categorical Data Analysis (3rd ed.). Wiley.
- 本书侧重于分类数据分析,介绍了多种统计方法和模型,适合进阶学习。
-
Wasserman, L. (2013). All of Statistics: A Concise Course in Statistical Inference. Springer.
- 本书内容紧凑,涵盖了统计推断的各个方面,适合希望快速掌握统计学核心知识的读者。
英文参考文献:
-
Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4th ed.). W. W. Norton & Company.
- A comprehensive introduction to statistics, suitable for undergraduate students.
-
Everitt, B. S., & Hothorn, L. A. (2011). A Handbook of Statistical Analyses Using R. Chapman and Hall/CRC.
- Focuses on statistical analyses using R, providing practical examples and code snippets.
-
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
- A rigorous introduction to statistical inference, suitable for graduate students.
关键词:统计学、描述统计、推断统计、中心极限定理、线性回归。
Keywords:Statistics, Descriptive Statistics, Inferential Statistics, Central Limit Theorem, Linear Regression.
关键词
#统计学
#描述统计
#推断统计
#中心极限定理
#线性回归
统计学(statistics):****收集、处理、分析、解释数据并从数据中得出结论的科学。
描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
中心极限法则:一个随机变量,不管是什么分布,当其样本足够大时,其均值不是原来的分布,而是自然分布。
所以并不是原来的变量的分布改变了,其实并没有变,只是他的均值满足自然分布而已。
《九成以上研究者或无法正确理解p值》
回归定义:
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。
在统计学中,线性回归方程是利用最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
1. 相关系数的概念
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。
相关系数是用以反映变量之间相关关系密切程度的统计指标。
相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;
着重研究线性的单相关系数。
【文字稿】
线性回归分析的步骤如下:
(1)根据预测目标,确定自变量和因变量
围绕业务问题,明晰预测目标,从经验、常识、以往历史数据研究等角度,初步确定自变量和因变量。
(2)绘制散点图,确定回归模型类型
通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有线性相关关系,同时进行相关分析,根据相关系数判断自变量与因变量之间的相关程度和方向,从而确定回归模型的类型。
(3)估计模型参数,建立回归模型
采用最小二乘法进行模型参数的估计,建立回归模型。
(4)对回归模型进行检验
回归模型可能不是一次即可达到预期的,通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型。
(5)利用回归模型进行预测
模型通过检验后,应用到新的数据中,进行因变量目标值的预测。