Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
统计学基础--假设检验
假设检验1、假设检验的由来我们先看一个例子:那么如何检验这位女士的说法呢?FISHER进行了研究,从而提出了假设检验的思想。比如:正常情况下我们去猜先倒茶还是先倒牛奶的话,概率应该是1/2,1.总共检验了两杯,全部猜对的概率是:0.5✖️0.5=0.25,虽然概率很低,但是也算正常;2.继续猜,又猜了两次,也全部猜对了几率是=0.0625,这个概率明显是非常低...原创 2018-08-07 10:31:11 · 47409 阅读 · 19 评论 -
统计学假设检验的两类错误
1、两类错误的解释我们之前探讨了假设检验的基本思想,现在我们来介绍下两类错误。假设检验的最终目的是:去伪存真,那么它对应的两类错误就是弃真存伪。接受或拒绝H0,都可能犯错误I类错误——弃真错误,发生的概率为αII类错误——取伪错误,发生的概率为β为了更形象点说明这两类错误,我们看下下面这个图片:对于正常情况下对于上面实例的假设检验应该为:H...原创 2018-08-07 17:15:01 · 45138 阅读 · 6 评论 -
概率论基础
一、概率分布定义:用来描述随机变量或者一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量的是离散的还是连续的。1. 离散型离散型变量的概率分布可以用概率质量函数来描述。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率X=xX=xX=x的概率用P(x)P(x)P(x)来表示联合概率分布概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布P(X=x,Y=y)P(X=x,Y=y)P(X=x,Y=y)表示X=xX=xX原创 2020-08-05 16:48:46 · 487 阅读 · 0 评论 -
时间序列分析原理
时间序列,是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列生活中各领域各行业有很多时间序列的数据,销售额,顾客数,访问量,股价,油价,GDP,气温。。。平稳序列(stationary series)是基本上不存在趋势的序列。这类序列中的各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。严平稳:严平稳表示的分布不随时间的改变而改变。如:白噪声(正态),无论怎么取,都是期望为0,方差为1。原创 2023-01-03 16:21:48 · 1118 阅读 · 0 评论 -
时间序列分析之ARIMA预测
ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)={AR(p),p阶自回归MA(q),q阶滑动平均d,平稳时的差分阶数AR(p), & \text{p阶自回归} \\MA(q), & \text{q阶滑动平均} \\d,& \text{平稳时的差分阶数} \\ARI。原创 2023-01-04 17:40:57 · 1547 阅读 · 0 评论 -
时间序列分析之auto_arima自动调参
一般的流程需要先根据平稳性来确认差分的阶数d,然后根据平稳序列来观察ACF图和PACF图来确认p和q,当然中间还要根据网格训练查看AIC的值来确认,真个过程非常复杂,而且结果还不一定准确;max_p、max_q根据观察图给定一个上限,模型自行Fit,如果自己不去查看ACF和PACF图,随意写一个比较大的值,也是可以的,但是时间成本比较高;start_P、max_P、start_Q、max_Q,只能手动赋值了,如果有知道这个周期性P和Q的定阶方法的大佬请说一下。可以帮助我们进行定阶,确认模型的参数。原创 2023-01-03 17:32:40 · 1194 阅读 · 0 评论 -
格兰杰因果检验_Python实现
了解了Granger causality test的思想之后会发现,其实Granger causality test最多能推断出X对Y的预测是有一定帮助的,至于是否能说X和Y是因果关系,则不一定。如果使用时间序列X和Y的历史值来预测Y的当前值,比仅通过Y的历史值来预测Y的当前值得到的误差更小,并且通过了F检验,卡方检验,则X对Y的预测是有一定帮助的。df_num=2即滞后二阶时,P值小于0.05,通过检验,也就是拒绝了。df_num=1 即滞后一阶时,p>0.05,不能拒绝原假设。格兰杰变化的原因,即。原创 2023-02-15 10:45:20 · 2187 阅读 · 0 评论 -
格兰杰因果检验_R实现
前言先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。如果有,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。一、平稳性问题1、单位根检验是序列的平稳性检验,如原创 2020-06-10 16:01:11 · 12714 阅读 · 6 评论 -
方差分析原理及python演练
前言检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等相关概念:因素或因子(factor):所要检验的对象,要分析行业对投诉次数是否有影响,行业是要检验的因素或因子水平或处理(treatment):因素的不同表现,即每个自变量的不同取值称为因素的水平观察值:在每个因素水平下得到的样本值,每个行业被投诉的次数就是观察值试验:这里只涉及一个因素,因此称为单因素四水平的试验总体:因素的每一个水平可以看作是一个总体,比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体样本数原创 2020-06-05 16:15:34 · 985 阅读 · 1 评论 -
python生存分析入门
引入什么是生存分析生存分析是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通过对某一具有相同特质的群体进行数据分析,我们可以得到这类人活过一定时间的概率。这就叫做生存分析。一个人的生存时间长短与许多因素有关,研究各个因素与生存时间有无关系以及关联程度大小,这也是生存分析。推广来说,疾病的复发可以看做“健康期”的生存,机器的故障可以看做“机器”的生存,甚至下岗职工再就业可以看做“失业期”的生存,生存分析可以被推广至很多问题的分析中去。应用场景生存分析最早在生物医学中使用的最多,用来原创 2020-06-03 17:24:19 · 5349 阅读 · 3 评论 -
ARIMA模型原理及python实战
背景时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温。。。平稳性平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳:严平稳:严平稳表示的分布不随时间的改变而改变。...原创 2020-04-27 15:28:27 · 4407 阅读 · 0 评论 -
scipy.optimize优化器理解
scipy.optimize.minimizescipy.optimize.minimize(fun,x0,args=(),method=None,jac=None,hess=None,hessp=None,bounds=None,constraints=(),tol=None,callback=None,options=None)fun:目标函数,返回单值,x0...原创 2020-04-20 17:51:33 · 1108 阅读 · 0 评论