统计学小知识点-白话记录

记录统计学方面小知识点,白话记录,常看常新。

1. 什么是概率:

概率反映的是随机事件出现的可能性大小。就随机事件来看,其受偶然因素的影响,出现是没有规律性的,但在大量重复实验的情况下,某一事件出现的频率可以作为该事件发生概率的估计,也就是概率反映的是“多次试验”中频率的稳定性。
概率的定义:
在大量重复试验中,如果事件A发生的频率稳定在某一个数值附近,那么这个数值叫做事件A的概率。

2. 如何理解假设检验:

假设检验的思想是基于“小概率事件在一次试验中不可能发生的思想”。为什么要进行假设检验,是要验证一个我们未知的东西是否符合常识。

通常将我们想要证明的事件定为备择假设,一般情况下的条件或常识定为原假设。
如果在原假设成立的条件下,我们选择的样本表明小概率事件发生(样本数据显示原假设成立这个事件发生的概率超级小,p值),[ 在零假设成立的前提下(如:没有诈骗),用样本数据计算出的没有诈骗的概率,p=0.01% ,概率超级小!!] ,那么在一定的标准下(显著性水平,类似于一个容错度,比如定0.05,好,那么在这个情况下,如果概率大于0.05,就算是0.06,我都不认为是小概率,如果一旦小于0.05,那就真是小概率。那如果原假设成立是小概率,能够说明一定问题了!)则说明原假设不成立,也即我们找到了足够强的证据来否定原假设,则可以说备择假设成立。

假设检验的逻辑:
1.问题是什么? 定义零假设、备择假设
2. 证据是什么?零假设成立时,样本计算出来的概率p值
3. 标准是什么?确定显著性水平
4. 作出结论。样本证据在标准下是否能否定原假设

P值: 就是在原假设成立时,样本数据出现这个情况或更差情况的概率。
**显著性水平:**原假设成立条件下,但拒绝原假设的概率最大值或临界值,也就是犯第一类错误概率的最大值。

3. 如何理解第一类错误和第一类错误:

第一类错误: 原假设为真,但拒绝原假设(弃真错误),犯第一类错误的概率的最大容许值称为显著性水平。
第二类错误: 原假设为假,但接受原假设(取伪错误)

4. 如何理解点估计和区间估计:

点估计是对未知参数进行估计,有矩估计和最大似然估计
区间估计是估计总体参数真实值的一个区间,通常是估计值+/-误差界限

5. 如何理解置信区间和置信度:

置信区间是误差范围。
置信度的目的是为了让这个范围包含真实值,具有一定的概率。假设设定95%的置信区间,那么如果做100次抽样,会有95个区间包含总体参数真实值。

6. 如何理解中心极限定理和大数定律:

中心极限定理: 样本的平均值约等于总体平均值,不管总体是什么分布,任意一个总体的样本平均总会围绕在总体的整体平均周围,且呈正态分布;
大数定律: 如果统计数据足够大,那么事物出现的频率就能无限接近他的期望(期望是概率的平均值)

7. 如何理解统计学三大检验:

T检验: 单样本t检验,独立样本t检验,配对样本t检验;
卡方检验: 分析类别变量实际观测的比例与期望比例是否一致,如性别与看不看直播是否有关系;
F检验: 主要用于方差齐性检验、方差分析(检验方差相等的多个正态总体均值是否相等)、线性回归方程整体的显著性检验。

8. 如何理解特征工程:

数据清洗、转换和选择
具体包括:数据探索分析、数据清洗(异常值、缺失值、脏数据处理)、数据转换(二值化、哑编码、连续变量离散化、衍生新变量)、特征提取和特征构造、特征选择等

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值