统计学
文章平均质量分 92
xia ge tou lia
致力于数据分析行业~
展开
-
机器学习——需求预测——准确性(误差)统计——MAE、MSE、MAPE、WMAPE
误差指标 公式(为预测值,为真实值) 特点 缺点 MAE 1、易受真实值量纲上的差别带来的影响 MSE 1、加倍惩罚极端误差 1、易受真实值量纲上的差别带来的影响 2、极端值的影响 MAPE WMAPE 一、平均绝对误差(Mean Absolute Error,MAE)其中,为预测值,为真实值。由于...原创 2021-11-21 00:36:14 · 27253 阅读 · 0 评论 -
多元统计分析——欧式距离和马氏距离
在一元的情形中,定义两个点和之间的距离:两者作差的绝对值,我们称为欧式距离。 经过标准化的作差绝对值,我们称为统计距离,或者标准化过后的距离。其中,代表样本的标准差。在多元的情形中,假设我们有两个维向量和如上面的定义,和相当于维空间中的两个点。我们也有两种方法定义两个点之间的距离。一、欧式距离(Euclidean distance)/范数欧式距离的计算公式如下:直观的理解即为:每个分量之间的差异的平方和,再开根号。缺陷:1、没有考虑到不同变量(维度)变化的尺度不同。例原创 2020-05-19 18:50:05 · 11894 阅读 · 0 评论 -
python——numpy——corrcoef函数(皮尔逊相关系数)
案例1:import numpy as npdata=np.loadtxt('data5.txt',delimiter='\t')x=data[:,:-1]pd.DataFrame(x).head()coorelation_matrix=np.corrcoef(x,rowvar=0) #相关性分析,rowvar=0表示对列进行分析pd.DataFrame(coorelation...原创 2020-04-27 21:06:00 · 7114 阅读 · 2 评论 -
python基础——抽样——概率抽样(简单随机、等距、分层、整群)
1、简单随机抽样#简单随机抽样,整体10000个样本import randomimport numpy as npimport pandas as pddata=np.loadtxt('data3.txt')len(data)data_sample=random.sample(data.tolist(),2000) #随机抽取2000个样本,sample函数,array必须转...原创 2020-04-25 14:32:50 · 14371 阅读 · 5 评论 -
统计推断——贝叶斯推断(了解)
假设检验的中心思想可以用一句话概括:“如果原假设正确,那么你观测到极端统计量(当前情况及更差情况)的概率仅有3%。”推断的一个替代方法是将未知参数视为随机变量。从参数的先验分布(prior distribution)出发,再利用观测数据和贝叶斯定理计算出更新后的后验分布(posterior distribution)。不再对检验本身给出概率判断,而是对参数本身给出概率判断。我们先了解一些基本...原创 2020-04-03 17:51:34 · 2476 阅读 · 0 评论 -
统计推断——独立事件、条件概率、贝叶斯定理(先验分布/后验分布/似然估计)
一、独立事件如果E 发生意味着F 发生(或者F 发生意味着E 发生),我们就称事件E 与事件F 为不相互独立(dependent)。反之,E 与F 就相互独立(independent)。从数学角度讲,事件E 和事件F 独立意味着两个事件同时发生的概率等于它们分别发生的概率的乘积:P(E, F)=P(E)P(F),其中P(E, F)表示事件E 和事件F同时发生的概率。二、条件概率如...原创 2020-04-01 14:29:15 · 5473 阅读 · 0 评论 -
python——numpy——random模块及常见分布模拟
一、随机数1、numpy.random.rand()生成均匀分布的随机小数。rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1 括号参数为生成随机数的维度一维数据import numpy as npimport matplotlib.pyplot as pltsample=np.random.rand(1000) #生成1000个(0,1]之...原创 2020-03-29 18:45:19 · 7140 阅读 · 0 评论 -
统计推断——假设检验——python代码实现“功效”计算——以检验均值差为例
两类错误在经典假设检验中,如果p值低于某个阈值(常用阈值α=5%),那么我们认为一个效应是具有统计学意义的(是显著的),这个过程产生两个问题:如果一个效应的确是偶然发生的,那么我们将它误判为统计显著的概率是多少?这个概率就是误报率(false positive rate)。 如果一个效应不是偶然的,那么假设检验失败的概率是多少?这个概率称为漏报率(false negative rate)...原创 2020-03-16 12:17:36 · 2041 阅读 · 0 评论 -
统计推断——假设检验——python代码实现偏差总和、卡方检验(骰子问题)
假设你经营一家赌场,怀疑一位顾客使用作弊骰子,也就是说这个骰子经过处理,更容易掷出其中一面。你抓住这位受怀疑的作弊者,没收了筛子,但是还必须证明这个骰子有问题,你将这个骰子掷了60次,得到如下结果: 点数 1 2 3 4 5 6 频数 8 9 19 5 8 11 你希望的结果是每个点数平均出现10次。...原创 2020-03-14 23:22:59 · 1419 阅读 · 0 评论 -
统计推断——假设检验——python代码检验两变量相关性,检验线性模型(置换法)
简介在全国家庭增长调查数据集中,新生儿体重和母亲年龄的相关性均为0.07,年龄较大的母亲似乎产下的孩子更重,但是,这种效应是偶然产生的吗?检验方案选择Pearson相关性作为检验统计量,此命题,我们使用双侧检验。原假设:母亲年龄和新生儿体重之间没有相关性。备择假设:母亲年龄和新生儿体重之间有相关性。思路:假设母亲年龄和新生儿体重之间没有相关性,那么我们将“母亲年龄”这组数据...原创 2020-03-14 18:31:49 · 1896 阅读 · 0 评论 -
统计推断——假设检验——python代码检验两均值差(置换法)
样本情况以下有一份1973年,美国疾病控制和预防中心(CDC)进行全国家庭增长调查的数据报告,收集“与家庭生活、婚姻情况、妊娠情况、生育情况、避孕情况,以及两性健康相关的信息。此项调查的结果用于进行健康服务和健康教育项目的规划,以及对家庭、生育及健康情况进行统计研究”。其中“prglngth”表示孕妇每胎妊娠的时长(周数),我们现在要验证一个结论:孕妇第一胎妊娠的时长(周数)大于其他妊...原创 2020-03-13 19:04:14 · 1382 阅读 · 0 评论 -
统计推断——假设检验概述(节选于:数据分析的统计基础)
以下节选于:数据分析的统计基础,个人认为对理解假设检验较为深入。原创 2020-03-01 17:36:15 · 375 阅读 · 0 评论 -
统计推断——假设检验——基于秩次的非参数检验
一、配对资料的符号秩和检验1、参数检验对比非参数检验1.1、参数检验的定义:在总体分布类型已知(如正态分布)的条件下,对其未知参数检验。如 检验和方差分析,都是基于总体分布为正态分布、总体方差相等的前提下对总体均数进行的检验。1.2、非参数检验的定义:若总体分布未知或已知总体分布与检验所要求的条件不符,经数据转换也不能使其满足参数检验的条件,这时需要采用一种不依赖于总体分布...原创 2020-02-16 18:34:26 · 8922 阅读 · 0 评论 -
统计推断——正态性检验(图形方法、偏度和峰度、统计(拟合优度)检验)
正态分布是很多计量数据比较分析的假设前提,因此在做比较分析之前要首先验证样本数据所代表的总体是否服从正态分布(这样说太费劲,我们以后还是简单地说成“数据是否正态”)。当然对于比率数据的比较也需要满足分布前提,通常是二项分布和泊松分布,对于二项分布的比率比较,一般不需要做分布的验证。而对泊松分析的比率比较则需要事先验证其分布,验证方法就是卡方检验,这已在我前面发表的《抽样分布篇之五:卡尔•皮尔逊和卡...原创 2020-05-14 18:56:34 · 32350 阅读 · 1 评论 -
课外阅读——节选——《简单统计学:如何轻松识破一个如何轻松识破一本正经的胡说八道》
1、不过,我们最感兴趣的例子与虚假数据无关。这些例子涉及的做法更加微妙,更加常见。许多人对统计显著性非常关心。这是一种奇怪的宗教,它受到了研究人员近乎盲目地崇拜。假设我们想要通过检验了解,每天服用阿司匹林能否降低心脏病发作的风险。理想情况下,我们会对健康个体的两个随机样本进行比较。一个样本每天服用阿司匹林,另一个样本每天服用安慰剂——与阿司匹林具有类似外观、感觉和味道的惰性物质。这种检验应当是...原创 2020-01-19 13:25:27 · 498 阅读 · 0 评论 -
统计推断——假设检验——方差分析之多重比较(LSD法、Sidak法、Bonferroni法、Dunnett法、Tukey法、SNK 法、Duncan法)
在一个试验中,有个处理平均数间比较时,其全部可能的相互比较对数有个,这种比较是复式比较,亦称多重比较(multiple comparisons)。为什么要做多重比较呢?方差分析后做多重比较有很多好处:误差由多个处理内的变异合并估计,自由度增大了,因而比较的精确度也增大了。 检验显著,说明可以判定多个处理间存在显著的变异。因此方差分析后再做多重比较,称为Fisher氏保护性多重比较(F...原创 2020-01-14 09:28:03 · 93641 阅读 · 3 评论 -
统计推断——假设检验——简单线性回归分析
一、线性回归描述• 父亲身高与儿子身高存在相关(相关关系)• 可否通过父亲身高预测儿子的身高?• 新生儿的体重与体表面积存在相关• 可否通过体重预测体表面积?(依存关系)1、概述例 为研究大气污染物一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的城市的一个交通点,统计单位时间过往的汽车数(千辆)、同时在低空的相同高度测定了该时间段平均气...原创 2020-01-06 08:27:37 · 15826 阅读 · 0 评论 -
统计推断——假设检验——两变量关联性分析
一、线性相关描述问题:两变量间是否存在相关或关联?身高与体重尿铅排出量与血铅含量凝血时间与凝血酶浓度血压与年龄1、线性相关例 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数据,见表。据此数据如何判断这两变量间有无关联?例 计算上个例子中基础代谢Y与体重X之间的样本相关系数...原创 2020-01-05 19:16:47 · 24214 阅读 · 0 评论 -
统计推断——假设检验——卡方检验
一、独立样本四格表资料的检验问题的提出:检验:比较两个样本均数的差别是否有统计学意义。检验:多个样本均数之间的差别是否有统计学意义。在医学研究中,还常需对比两组或多组定性变量(如检验结果:愈合和未愈合)资料之间的差别,例如比较两种或多种治疗方法的治愈率是否不同。该怎么办?1.1 检验的基本思想假设两种药物治疗的愈合率是相等的(成立的条件下),那么这两种药物的愈合率就可...原创 2020-01-03 17:01:19 · 10034 阅读 · 0 评论 -
统计推断——假设检验——方差分析
一、概述方差分析(analysis of variance, ANOVA)用于两个或两个以上样本均数的比较,还可分析两个或多个研究因素的交互作用以及回归方程的线性假设检验等。注意:方差分析常用于两个及两个以上独立样本均数的比较,当用于两个均数的比较时,同一资料所得结果与检验等价,且有如下关系:。证明:对于另个独立样本的的均值比较来说:,,分子是组间的变异,分母是...原创 2019-12-31 17:17:29 · 14644 阅读 · 1 评论 -
统计推断——假设检验——检验的功效(势)
一、假设检验的两类错误:第Ⅰ类错误:实际情况与 一致时,却根据统计量数值拒绝,这样的错误称为第Ⅰ类错误;出现第Ⅰ类错误的概率用表示。第Ⅱ类错误:实际情况与不一致时,却根据统计量数值不拒绝,这样的错误称为第Ⅱ类错误;出现第Ⅱ类错误的概率用表示。二、假设检验的两类错误为什么不能同时变小?假如理论告诉我们参数只可能在0和1之间取值,检验统计量服从分布。检验统计量可取值于整个,我们想要...原创 2019-12-31 15:46:02 · 15654 阅读 · 0 评论 -
统计推断——假设检验——t 检验(总体的标准差未知)
一、t检验的概念以 t 分布(未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。二、t 检验的应用条件随机样本; 来自正态分布总体(小样本时); 两独立样本比较时,要求两总体方差相等(方差齐性),单样本不需要方差齐性。三、t检验的分类1、单样本资料的t 检验推断样本所属总体的均数是否已知值有差异。例 某研究人员在东北某县抽取...原创 2019-12-29 22:47:09 · 25504 阅读 · 0 评论 -
统计推断——假设检验中 p 值的含义具体是什么?
「假设检验」,顾名思义,就是通过概率统计的知识来判断一个命题(如「抛掷一枚硬币出现正反面的概率是均匀的」,如「值大于0.75」)的真伪性。这个命题便称作「零假设,null hypothesis」,我们通常可以将该命题用数学语言表达出来,比如:「抛掷一枚硬币出现正反面的概率是均匀的」可以定义为「硬币出现正面的概率为,即。」这个命题在统计学中通常用来表示,所以我们需要检验的假设写成::。然后问...原创 2019-12-26 14:44:37 · 9599 阅读 · 0 评论 -
统计学基础——两个样本均值(频率)之差的分布
一、样本均值之差的定义设是独立的抽自总体的一个容量为的样本的均值。是独立的抽自总体的一个容量为的样本的均值。则具备以下性质:,表示抽取多次获取样本均值的数学期望,根据中心极限定理,则。 ...原创 2019-12-25 16:00:56 · 11761 阅读 · 0 评论 -
统计推断—假设检验(hypothesis testing)
假设检验概念假设检验是依据样本提供的有限信息对总体作出推断的统计学方法,是在对研究总体两个对立的假设之间作抉择的过程。假设检验的核心是判断差异(总体参数和样本参数之间的差异、或者两样本参数之间的差异)是否足以通过抽样的随机性(即抽样误差)来解释。假设检验的步骤例1 某市抽取400名小学生进行视力干预方法研究,干预组和对照组各200人。研究前首先作基线调查,发现干预组屈光度的均...原创 2019-12-25 12:20:21 · 4339 阅读 · 0 评论 -
统计推断—参数估计—点估计、区间估计、t分布、Z分布
统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。一、参数估计基础-Z分布在统计应用中,可以把任何一个均数为,标准差为的正态分布转变为,的标准正态分布,即将正态变量值用来代替,由于服从正态分布,故服从标准正态分布,其中表示总体的标准差。特点:总体的标准差是一定的。二、参数估计基础-t分布实际资料的分析中,由于往往未知,故标准化转换演变...原创 2019-12-23 23:44:24 · 15630 阅读 · 0 评论 -
统计学基础——中心极限定理
什么是中心极限定理(Central Limit Theorem)中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。注:任务分布的含义是即使是从偏态总体中随机抽样,当n足够大时(如n>30),样本均值也近似正态分布。如以下实验:非正态分布总体样本均数...原创 2019-12-18 13:41:38 · 5565 阅读 · 0 评论 -
统计学基础——常用的概率分布(二项分布、泊松分布、指数分布、正态分布)
变量类型:连续型变量 如:正态分布 离散型变量 如:二项分布、泊松分布三者之间的关系二项分布(Binomial distribution)二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机试验。伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面...原创 2019-12-17 14:05:03 · 53571 阅读 · 6 评论 -
统计学基础——为什么样本方差(sample variance)的分母是 n-1?
总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:,其中,为总体的均值,为总体的标准差,为总体的样本数。样本方差,无偏方差,在实际情况中,总体均值是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下:或者,其中,为样本的均值,为样本的标准差,为样本的个数。实际操作中,我们一般通过抽样来验证总体。就会面临以下两种情况:(总体的均值)已...原创 2019-12-15 15:59:42 · 2149 阅读 · 0 评论 -
统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别
方差(Variance)概率论离散型随机变量的数学期望:,其中,是变量发生的概率。连续型随机变量的数学期望:,其中,f(x)是概率密度。方差值:,证明过程: 假设:,则,则 统计学总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差:,其中,为总体的均值,为总体的标准差,为总体的样本数。样本方...原创 2019-12-15 12:05:17 · 94454 阅读 · 0 评论