统计科学系列
文章平均质量分 78
分享数据科学中的统计学知识
俊红的数据分析之路
《对比Excel》系列图书作者
展开
-
讲讲切比雪夫定理
总第214篇/张俊红前面讲了大数定理,讲了中心极限定理,有读者留言让讲讲切比雪夫定理,安排。这一篇就来讲讲切比雪夫定理。在讲切比雪夫定理之前,我们先看下切比雪夫不等式:其中P表示概率,X...原创 2020-05-01 11:23:33 · 5886 阅读 · 0 评论 -
讲讲大数定理
总第212篇/张俊红前面我们讲过中心极限定理,没看过的同学可以去看看:讲讲中心极限定理。这一节来讲讲大数定理,大数定理和中心极限定理是比较接近的两个概念,这两个定理经常一起出现。我们来具...原创 2020-04-25 10:08:57 · 898 阅读 · 0 评论 -
你能分清比例和比率吗?
总第157篇/张俊红今天给大家分享两个概念,比例和比率。前两天发过,发了以后有读者反映有点瑕疵,所以删除了重发。比例和比率,乍一看上去,好像这两个指标没啥区别,都是用来表...原创 2019-07-28 10:51:26 · 3129 阅读 · 0 评论 -
统计学的假设检验
总第159篇/张俊红上次写了统计学里面的置信度与置信区间以后,文章反响还不错,这次再来试着写写统计学里面的假设检验。点击查看:聊聊置信度与置信区间假设检验的核心其实就是反...原创 2019-08-03 14:54:39 · 2784 阅读 · 3 评论 -
方差分析
总第160篇/张俊红上一篇讲了假设检验,这一篇讲讲方差分析。1.背景:假如你们现在针对用户提出了三种提高客单价的策略A、B、C,现在想看一下这三种策略最后对提高客单价的效...原创 2019-08-10 16:02:09 · 14944 阅读 · 5 评论 -
最小样本量计算
总第179篇/张俊红这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从整体中抽取部分样本来进行研究,并用抽取的样本来代替整体的情况。比如要研究中学生的平均身高,你不太可能把全国的中学生身高都量一遍,然后求出一个平均值。比较简单的方法就是从全国中学生群体中抽取一部分,然...原创 2019-11-23 11:02:32 · 34867 阅读 · 1 评论 -
多因素方差分析
总第173篇/张俊红01.前言在前面我们讲过简单的单因素方差分析,这一篇我们讲讲双因素方差分析以及多因素方差分析,双因素方差分析是最简单的多因素方差分析。单因素分析就是只...原创 2019-10-19 11:00:00 · 28057 阅读 · 3 评论 -
正态性检验
总第177篇/张俊红在前面的文章中讲过,很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。01.描述统计方法描述统计就是用描述的数字或图表来判断数据是否符合正态分布。常用的方法有Q-Q图、P-P图、直方图、茎叶图。1.1 Q-Q图此Q-Q非用于聊天的QQ,Q是quantile的缩写,即分位数。分位数就是将数据从小...原创 2019-11-09 16:49:29 · 3349 阅读 · 0 评论 -
均值与期望到底是不是一回事?
总第172篇/张俊红均值和期望是我们平常接触比较多的两个概念,均值大家都知道,就是若干个值先求和,然后再除值的个数;那期望又是什么。一般人们为了便于理解,就会说,你把期望...原创 2019-10-12 08:41:47 · 11603 阅读 · 1 评论 -
讲讲逐步回归
总第178篇/张俊红01.前言前面我们讲过了多元线性回归。这一篇我们来讲讲逐步回归。什么是逐步回归呢?就是字面意思,一步一步进行回归。我们知道多元回归中的元是指自变量,多元就是多个自变量,即多个x。这多个x中有一个问题需要我们考虑,那就是是不是这多个x都对y有作用。答案就是有的时候都管用,有的时候部分管用。那对于那些没用的部分我们最好是不让它加入到回归模型里面。我们把这个筛选起作用的变量或者剔除不...原创 2019-11-16 12:52:08 · 14418 阅读 · 2 评论 -
你到底偏哪边的?
总第169篇/张俊红今天我们来聊聊统计学中的偏态分布,聊偏态分布以前我们先看看正态分布,下面这张图在公众号文章中多次出现,就是传说中的正态分布。这张图中的横轴是随机变量 ...原创 2019-09-28 12:03:12 · 508 阅读 · 0 评论 -
多元回归分析
总第176篇/张俊红01.前言多元回归的形式如下:02.参数估计多元回归方程中各个参数也是需要估计的,关于为什么要估计,其实我们在一元线性回归里面也讲过。与一元线性回归不同的是,一元线性回归拟合的是一条线,而多元回归拟合的是一个面。使用的方法也是最小二乘法。03.拟合程度判断在多元回归里面拟合程度判断与一元回归也类似,也主要有总平方和、回归平方和、残差平方和这三种。多元回归里面也有R^2,R^2 ...原创 2019-11-02 10:00:00 · 4639 阅读 · 0 评论 -
多重比较法-LSD
总第174篇/张俊红前面我们讲了方差分析,方差分析主要是用于多组均值比较的,方差分析的结果是多组均值之间是否有显著性差异,但是这个显著性差异是整体的显著性差异,可是我们并...原创 2019-10-26 11:25:55 · 35812 阅读 · 0 评论 -
T检验的种类与区别
总第191篇/张俊红我们前面讲过,T检验是用来比较两个均值之间是否有显著差异的一种检验方法。这一篇给大家介绍一下T检验的种类以及具体的Python实现代码。T检验是比较两个均值差异的,不...原创 2020-02-08 12:41:40 · 10003 阅读 · 2 评论 -
数据分析之异常值处理
总第198篇/张俊红异常值是我们在数据分析中会经常遇到的一种特殊情况,所谓的异常值就是非正常数据。有的时候异常数据对我们是有用的,有的时候异常数据不仅对...原创 2020-03-15 10:30:00 · 10393 阅读 · 0 评论 -
最近疯传的SIR传染病模型是什么?
总第188篇/张俊红最近看到在网上传的一张SIR传染病模型的图,很多人应该对这个模型不是很了解,今天就讲一下这个模型。这一篇只讲学术,不讨论别的。SIR模型是传染病模型中最经典的一个,类...原创 2020-01-23 11:43:28 · 13158 阅读 · 3 评论 -
分析遇到非正态数据该怎么办?
总第194篇/张俊红我们在前面讲过数据的正态性检验:正态性检验,介绍了检验数据是否正态的两种方法。这一节我们来看一下,如果数据不满足正态时该怎么办,答案就是将非正态数据通过Box-Cox...原创 2020-02-29 11:00:15 · 7784 阅读 · 0 评论 -
讲讲什么是异方差
总第196篇/张俊红今天我们来讲一下异方差,在异方差以前,我们先讲一下与异方差类似另一个概念:同方差,那同方差又是什么呢?同方差 = 相同 + 方差,顾名思义就是方差相同。那方差又是什么...原创 2020-03-07 11:00:00 · 29416 阅读 · 1 评论 -
时间序列预测(中)
总第218篇/张俊红上一篇文章我们介绍的时间预测的方法基本都是通过历史数据直接求平均算出来的的。这一篇讲一些用模型来预测的方法。1.AR(p)模型先讲第一个AR模型,AR的全称是Auto...原创 2020-05-17 10:47:38 · 549 阅读 · 0 评论 -
时间序列预测(下)
总第219篇/张俊红前面两篇给大家介绍了几种对时间序列直接的预测方法,这一篇给大家讲讲如何对时间序列进行分解,并根据分解法对数据进行预测。要对一个指标进行预测,首先得知道影响这个指标的因...原创 2020-05-23 10:00:00 · 732 阅读 · 0 评论 -
时间序列预测(上)
总第216篇/张俊红预测是时间序列相关知识中比较重要的一个应用场景。我们在前面说过时间序列数据(上),时间序列可以分为平稳时间序列与非平稳时间序列两种。今天这一篇就主要介绍下《平稳时间序...原创 2020-05-10 10:00:00 · 805 阅读 · 0 评论 -
讲讲什么是Q检验
总第237篇/张俊红之前我们讲过T检验、F检验,这一篇,我们讲讲Q检验。Q检验又称舍弃商法,主要是用来对可疑值(异常值)进行取舍判断的。比如现在做了若干次实验,然后得到了若干个观测值:1...原创 2020-08-22 11:00:00 · 14169 阅读 · 0 评论 -
方差齐性检验
总第235篇/张俊红1.前言我们在方差分析里面有讲过,方差分析有一个很重要的前提就是叫方差齐性。这一篇来讲讲如何来检验方差齐性。先讲讲什么是方差齐性,方差齐性是指不同组间的总体方差是一样...原创 2020-08-09 11:00:00 · 22237 阅读 · 2 评论 -
讲讲OC曲线是什么?
总第240篇/张俊红今天我们来聊聊什么是OC曲线,OC曲线是用来反映:一个批次的产品被接收的概率与该批次产品不合格率之间的关系。如下图这样的曲线:横轴是该批次的整体不良率(不合格率),纵...原创 2020-09-13 11:00:00 · 7814 阅读 · 0 评论 -
讲讲似然比检验
总第239篇/张俊红前面我们讲了T检验、F检验、Q检验等。这一篇来讲讲似然比检验。在讲似然比检验之前,我们先讲两个与似然比相关的概念:似然函数与极大似然估计。似然函数说到似然函数,就不得...原创 2020-09-05 11:00:00 · 25345 阅读 · 2 评论 -
讲讲Bootstrap是在干啥?
总第248篇/张俊红学过统计学的同学应该对置信区间都有了解,置信区间又叫估计区间,是从概率来讲某个随机变量可能取的值的范围。在前面的文章《聊聊置信度与置信区间》中讲过为什么会有置信区间以...原创 2020-11-08 17:40:09 · 2137 阅读 · 0 评论 -
你们要的最小样本量计算来了。
总第179篇/张俊红这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一...原创 2021-02-25 09:00:00 · 8609 阅读 · 0 评论