统计学基础(四)

本文介绍了统计学的基础知识,包括线性回归的概念、拟合线的计算步骤和判断准确性,以及方差分析(ANOVA)的定义、举例分析和计算过程。此外,还详细讲解了卡方分布的定义、用途和计算步骤,为理解和应用这些统计方法提供了基础指导。
摘要由CSDN通过智能技术生成

参考资料:

Table of Contents

1.线性回归

1.1 基础概念

1.2 拟合线计算步骤

1.3 判断准确性

 2. 方差分析(Analysis of Variance,简称ANOVA)

2.1 定义

2.2 方差分析举例分析

2.2.1 方差分析术语

2.2.2 方差分析的原理

2.2.3 方差分析思路

2.2.4 计算分析

2.2.5 结论

3. 卡方分布

3.1 定义

3.2 分布的两个主要用途

3.3 计算步骤

3.3.1 确定要进行检验的假设及备选假设

3.3.2 求出期望频数和自由度

3.3.3 确定用于决策拒绝域

3.3.4 计算检验统计量

3.3.5 查看检验统计量是否位于拒绝域以内

3.3.6 做出决策


1.线性回归

1.1 基础概念

二变量数据:对于每一个观察结果,二变量数据给出两个变量数值 

常用表示图形:散点图(散布图),散点图的作用在于能体现数据的实际模式,通过散点图,你可以清晰地看出两个变量的关系

正线性相关:x增长,y也涨

负线性相关:x增长,y下降

不相关:x和y数值呈现一种随机模式

两个变量之间存在相关关系(数学关系),并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系

最佳拟合线:能最好的接近所有数据点的线(最佳预测)

如果确定最佳拟合线:表达式为y = a+bx且使得y的实际观察值与每个x相对应的y的估计值的差距最小的线

如何确定差距最小:利用误差平方和SSE=\sum (y-\bar{y})^{2},和方差的计算方法很相近

1.2 拟合线计算步骤

  • 求出\bar{x}\bar{y}
  • 计算y = a+bx中的斜率(陡度)b,即b为最佳拟合线的斜率,公式为:b=\frac{\sum ((x-\bar{x})(y-\bar{y}))}{\sum (x-\bar{x})^{2}}
  • 最佳拟合线最好穿过x和y的均值(\bar{x}\bar{y}),带入计算计算a=\bar{y}-b\bar{x}
  • 得到最佳拟合线

最小二乘法

一种数学方法,可以用一条最佳拟合线将一组二变量数据拟合

通过将公式y = a+bx的一条直线与一组数值相拟合,使得误差平方和最小——即使得实际数值与这些数值的估计值之间的差值最小。

其中,直线y = a+bx被称为回归线

1.3 判断准确性

利用回归线的相关性强度——相关系数

相关系数介于 -1 和 1 之间,描述了各个数据点与直线的偏离程度,度量回归线与数据的拟合度,用字母 r 表示

  • r=-1,数据为完全负线性相关;
  • r=1,完全正线性相关;
  • r=0,不存在相关性

计算相关系数r

计算公式:r=\frac{bs_{x}}{s_{y}}{s_{x}}=\sqrt{\frac{\sum (x-\bar{​{x}})^{2}}{n-1}}

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值