
统计
文章平均质量分 69
我不爱机器学习
这个作者很懒,什么都没留下…
展开
-
如何理解多元回归(多因变量)?(python)
【代码】如何理解多元回归(多因变量)?(python)原创 2024-11-26 09:38:03 · 927 阅读 · 0 评论 -
《应用多元统计分析》(附代码链接)
R代码:原创 2024-11-26 09:37:40 · 289 阅读 · 0 评论 -
如何理解岭回归模型?(python)
值的选取原则:如下图所示,当。原创 2024-11-19 17:43:06 · 280 阅读 · 0 评论 -
如何处理多重共线性?(python)
若变量x1和x2的相关性增强,则β1和β2的方差会逐渐增大。当两者完全相关r=1时,方差变得无穷大。注意,多重共线性不影响拟合效果,但会造成系数的估计值不稳定,在回归方程高度显著的情况下,有些与因变量高度相关的自变量回归系数通不过显著性检验,甚至出现回归系数的正负号得不到合理解释的情况,变量间的经济结构关系产生了扭曲。原创 2024-11-19 09:22:48 · 606 阅读 · 0 评论 -
如何处理异常值和强影响点?(python)
异常值分为两种情况:因变量异常和自变量异常。原创 2024-11-17 10:46:45 · 800 阅读 · 0 评论 -
Python实现BOX-COX变换
参考:https://blog.csdn.net/DL11007/article/details/128670981。BOX-COX变换是由博克斯与考克斯在1964年提出的一种应用非常广泛的变换,是对因变量。时,对数据做对数变换后其就服从正态分布。从数据看,如果数据中一些数值很大,但是。从概率分布角度看,当数据本身服从。,可以尝试对其做对数变换。BOX-COX变换是一个。对于回归问题,可以考虑。,则认为无异方差性。原创 2024-11-16 16:01:36 · 713 阅读 · 0 评论 -
如何处理回归模型中的异方差性和自相关性问题?(python)
在回归模型中,一般假设误差的均值为0,且不同误差项之间的方差相等、独立或者不相关但实际建模过程中,误差项的方差可能不等,即异方差性或者误差项间的协方差不为0,即存在自相关性这里的自相关不是指两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间的相关关系。原创 2024-11-16 12:32:40 · 1412 阅读 · 0 评论 -
如何利用残差对数据进行诊断?
如有异常值出现、周期性因素干扰等。的,或者说线性回归方程是有效的,但。一个线性回归方程通过了。时,才能运用回归模型。原创 2024-11-13 10:59:20 · 385 阅读 · 0 评论 -
如何对回归方程进行统计(显著性)检验?
在多元回归中,F检验显著,说明y对所有自变量的整体的线性回归效果是显著的,但不等于y对每个自变量x的回归效果都显著。反之,某个或几个x的系数不显著,回归方程的F检验仍有可能是显著的。基于Python回归模型的BOX-COX变换和强影响点分析https://blog.csdn.net/DL11007/article/details/128670981。对于多元线性回归,三者不一致。一般表示样本相关系数,总体样本相关系数一般用。注意,相关系数的t检验,只是表示。,其将平方和公式进行分解,得到。原创 2024-11-11 09:37:55 · 4610 阅读 · 1 评论 -
如何从头开始建立回归模型?
比如,因变量与某些自变量的偏回归系数应该是正的,但是模型中却是负的,那这个模型即使通过了统计检验,也是没有意义的,更不能应用。对于一个具体的问题,当研究目的确定后,被解释变量容易确定,其一般直接表达研究的目的。通常,希望因变量(内生变量、被解释变量)和自变量(外生变量、解释变量)之间存在。,可以理解为同一时间采集的不同(随机)样本数据可能存在较大的差异。不论哪种数据,样本量的多少都要与设置的解释变量的数目匹配。建立初步模型后,不能直接拿来应用,需要对模型进行。时序数据的收集需要注意数据的。原创 2024-11-11 09:36:27 · 1303 阅读 · 0 评论 -
如何理解回归分析和相关分析以及两者的区别?
回归分析的基本思想和方法以及回归的名称是由英国统计学家F·高尔顿提出。,如下图1-2所示。这种对应点不能分布在一条直线上的变量间的关系,即。回归方程的建立依赖于观察或实验积累的数据,又称为经验回归方程。,如下图1-1所示,统计上将这种关系的研究称为回归分析。,将这种变量间的关系称为相关关系或统计关系。:可以看到确定性的函数关系,参考:《应用回归分析》原创 2024-11-09 11:31:09 · 1739 阅读 · 0 评论 -
python实现各种描述统计/概率分布/假设检验/置信区间/回归/方差分析/卡方检验
最近在学习统计方面的知识,看到一个不错的学习网站,分享给大家,网址链接在文末。原创 2024-11-09 11:30:50 · 813 阅读 · 0 评论 -
如何看方差分析表格?
案例:分析结果:原创 2024-10-25 14:48:34 · 253 阅读 · 0 评论 -
测量误差相关知识(四)
平方俗称“二乘”,因此得名最小二乘。其原理是在测量误差无偏(排除了系统误差影响)、正态分布和相互独立的条件下推导出的,但在不严格服从正态分布的情况下也常被使用。最小二乘可用于线性参数以及非线性参数处理。其中,线性参数处理流程首先根据具体问题列出误差方程式再按最小二乘法原理,利用求极值(最大和最小)的方法将误差方程转化为正规方程然后求解正规方程,得到待求的估计量最后给出精度估计(标准差)对于非线性参数,可先将其线性化,然后按上述线性参数的最小二乘法处理程序去处理。原创 2024-10-24 09:52:14 · 938 阅读 · 0 评论 -
测量误差相关知识(三)
这一节主要讲解误差的合成与分配。原创 2024-10-24 09:51:56 · 789 阅读 · 0 评论 -
测量误差相关知识(二)
对自然界的任何量进行实验和测量时,由于参与测量的5个要素–测量装置(测量仪器)、测量人员、测量方法、测量环境和被测对象自身都不够做到完美无缺,使得测量结果与其真实值之间存在差异,这个差异在数学上叫做测量误差。任何测量必然会产生误差,不含误差的测量结果是不存在的。原创 2024-10-15 17:40:19 · 1212 阅读 · 0 评论 -
测量误差相关知识(一)
误差=测得值-真值。原创 2024-10-15 17:40:05 · 788 阅读 · 0 评论 -
《空间计量经济学:从横截面数据到空间面板》(书籍推荐)
这种数据类型的主要特点是所有观测对象的数据都是在同一时间截面上获取的,从而允许对不同统计单位(如国家、地区、公司、个人等)在同一时间点上的相同统计指标进行比较和分析。之间潜在的相互依赖性。Tobler的“地理学第一定律”指出:“任何东西与别的东西之间都是相关的,但近处的东西比远处的东西相关性更强”,这正是空间自相关概念的基础。可以使用最大似然估计得到。是空间计量经济学中的一个重要模型,它将空间滞后模型(SAR)和杜宾模型(Durbin Model)的特点结合起来,同时考虑了空间滞后项和空间误差项的影响。原创 2024-09-28 11:01:32 · 906 阅读 · 0 评论 -
多元高斯分布(Multivariate Gaussian Distribution)(详细说明,便于理解)
在深入了解多元高斯分布前,可以先了解一下一元高斯分布。接下来对多元高斯分布进行详细的说明与推导。对于 维的向量(连续变量),多变量(多元, multivariate Gaussian)高斯分布形式为: 式中的是 维的均值向量,是的协方差矩阵(covariance matrix),是的行列式(determinan...原创 2020-01-15 11:17:06 · 28185 阅读 · 6 评论 -
一元高斯分布(Univariate Gaussian Distribution)(详细说明,便于理解)
1、一元高斯分布的定义高斯分布也叫正态分布,主要用于连续变量的分布。假设有一变量,则其高斯分布形式为: 式中是均值(mean),是方差(variance),方差的平方根叫做标准误(standard deviation),方差的倒数叫做精度(precision)。高斯分布满足:高斯分布是归一化的(...原创 2020-01-15 11:16:01 · 10029 阅读 · 0 评论 -
python3 自编线性回归(4种方法)
1、数据准备:import numpy as npx = np.array([0, 1, 2, 3])y = np.array([-1, 0.2, 0.9, 2.1])X, Y = x, y2、直线回归方程,适用于一元线性回归# 直线回归方程求解(y=bx+a+e)def regressgion(x, y): x_mean = np.mean(x) y_...原创 2019-11-13 10:31:58 · 965 阅读 · 2 评论 -
多维标度法
MDS基本概念 定义:多维标度法是利用客体间的相似性数据去揭示他们之间的空间关系的统计分析方法 种类: 度量化模型:若模型所需要的相似性数据是用距离尺度或比率尺度测得的 非度量化模型:若模型需要顺序量表水平的相似数据,称为非度量化模型 基本理论与方法 ...原创 2019-05-26 21:41:35 · 7567 阅读 · 0 评论 -
典型相关分析
概念 探讨一组变量与另一组变量间的相互关系,canonical correlation analysis ,是简单相关和多元相关的延伸。 比较 分析原理 ...原创 2019-05-26 21:41:01 · 1222 阅读 · 2 评论 -
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation)
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation) 1、均方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。 2、均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以...转载 2019-01-19 21:07:20 · 21725 阅读 · 0 评论 -
对应分析
对应分析的提出:因子分析的不足 因子分析法分为R型因子分析和Q型因子分析。R型因子分析研究变量(指标)之间的相关关系,Q型因子分析研究样本之间的相关关系。 有时不仅关心变量之间或样本之间的相关关系,还关心变量和样本之间的对应关系,这是因子分析方法不能解释的。 对应分析(correspondence analysis)概念 定义:研究样本和变量之间的关...原创 2018-10-21 17:58:45 · 19666 阅读 · 0 评论 -
因子分析
一、与主成分的联系与区别区别 主成分是通过线性组合将原变量综合成几个主成分 因子分析通过构建若干意义比较明确的公因子 主成分分析是变异数导向的方法 因子分析是共变异数导向的方法 联系 因子分析是主成分分析的推广 二、因子分析思想特点 因子变量数远少于原变量数 因子变量是一种新的综合 因子变量之间没有相...原创 2018-10-21 16:56:22 · 7846 阅读 · 0 评论 -
主成分分析
一、概念主成分分析的提出:principal component analysis,是将多个指标化为少数几个综合指标的一种统计分析方法,即通过降维技术把多个变量化为少数几个主成分的方法。 基本思想:将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 数学处理:就是将原来p个指标作线性组合,作为新的指标。x1和x2相关性高,正交变换成y1和y2,相关性变低,...原创 2018-10-21 13:30:32 · 1198 阅读 · 0 评论 -
聚类分析
一、聚类分析介绍基本概念:cluster analysis 是研究物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。 分析方法:系统聚类法(hclust)和快速聚类法(kmeans). 聚类分析的类型:Q型聚类:对样品的聚类;R型聚类:对变量的聚类 聚类统计量: 二、系统聚类法基本思...原创 2018-10-21 11:01:02 · 8777 阅读 · 0 评论 -
广义模型与线性模型 & 判别分析
线性模型 广义线性模型:Y不是正态分布 一般线性模型:X不是连续或正态分布 变量类型 模型选择 广义线性模型 广义线性模型:在广义线性模型中,均假定观察值y具有指数族 Logistic模型: 对数线性模型: poisson分布 一般线性模型 单因素随机区组试...原创 2018-10-20 20:04:24 · 2155 阅读 · 0 评论 -
统计导论
统计学(statistics) 是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。 数据收集:取得统计数据 数据处理:将数据用图表等形式展示出来 数据分析:选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。...原创 2018-10-20 14:51:02 · 1220 阅读 · 0 评论 -
数据的搜集
一、数据的来源1、间接来源定义:数据由别人通过调查或实验的方式搜集,使用者只是找到它们并加以使用优点:二手资料搜集容易,采集数据成本低,很快得到局限:二手资料不是为特定的研究问题而产生的,所以在回答所研究的问题方面有欠缺对二手资料评估:资料是谁搜集的?考察数据搜集者的实力和社会信誉度。政府或机构 为什么目的而搜集?为了某个集团利益而搜集数据是值的怀疑的 数据是怎样搜集的...原创 2018-10-19 18:35:01 · 10425 阅读 · 0 评论 -
指数
一、基本问题1、指数概念指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。 指数是测定多项内容数量综合变动的相对数。概念要点:一是指数的实质是测定多项内容,如零售价格指数反映的是零售市场几百种商品价格变化 的整体状况。指数方法论核心是研究如何将多项内容合在一起,从整体上进行反映。二是其表现形式为动态相对数,既然是动态相对数,涉及指标的基期对比,不同要素基期的选择就成为指数...原创 2018-10-14 00:05:12 · 4866 阅读 · 0 评论 -
时间序列分析和预测(含实例及代码)
导论研究时间序列主要目的:进行预测,根据已有的时间序列数据预测未来的变化。时间序列预测关键:确定已有的时间序列的变化模式,并假定这种模式会延续到未来。时间序列预测法的基本特点 假设事物发展趋势会延伸到未来 预测所依据的数据具有不规则性 不考虑事物发展之间的因果关系 时间序列数据用于描述现象随时间发展变化的特征。时间序列分析就其发展历史阶段和所使...原创 2018-09-17 21:37:34 · 228918 阅读 · 45 评论 -
科学试验及其误差控制
一、科学研究的基本过程和方法1、基本过程科学研究的目的在于探求新的知识、理论、方法、技术和产品。基本过程包括3个环节:a、根据本人的观察了解或前人的观察(文献)对所研究的命题形成一种认识或假说b、根据假说所涉及的内容安排相斥性试验或抽样调查c、根据试验或调查所获的资料进行推理,肯定或否定或修改假说,从而形成结论,或开始新一轮的试验以验证修改完善后的假说,如此循环发展,使所获得的...原创 2018-09-10 16:58:38 · 3215 阅读 · 0 评论 -
次数分布和平均数、变异数间断性变数资料的整理
通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。资料整理和分析时试验工作的重要组成部分。一、总体及其样本具有共同性质的个体所组成的集团,称为总体(population)。总体根据事物的属性人为规定。总体所包含的个体数目可能是无穷多个,这种总体称为无限总体(infinite population)...原创 2018-09-09 22:12:41 · 4313 阅读 · 0 评论 -
理论分布和抽样分布------(四)抽样分布
统计学的一个主要任务就是研究总体和样本之间的关系。这种关系可以从两个方向进行:(1)从总体到样本的方向,目的是要研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系,即抽样分布(2)从样本到总体的方向,从总体中随机抽取样本,并用样本对总体作出推论,即统计推断问题。抽样分布(sampling distribution)是统计推断的基础。一、统计数的抽样及其分布参数从总体中...原创 2018-09-08 11:43:30 · 8295 阅读 · 4 评论 -
理论分布和抽样分布------(三)连续型随机变量的概率分布(正态分布)
正态分布(normal distribution),是连续性变数的理论分布。日常生活中许多数量指标总是正常范围内有差异。偏离正常,表现过高或过低的情况总是比较少,且越不正常的可能性越少,这就是所谓的常态或“正态”,可以用正态分布的理论及由正态分布衍生出来的方法来研究。一般作物产量和许多经济性状的数据均表现属正态分布。在适当条件下,可用来做二项分布及其它间断性或连续性变数分布的近似分布,就能...原创 2018-09-07 13:49:18 · 2411 阅读 · 0 评论 -
理论分布和抽样分布------(二)离散型随机变量的概率分布(二项分布和泊松分布)
一、二项总体及二项式分布试验或调查中最常见的一类随机变数是整个总体的各组或单位可以根据某种性状的出现与否而分为两组。如:小麦种子发芽和不发芽,大豆种子叶色为黄色和青色。这类变数均属间断性随机变数,其总体中包含两项,即:非此即彼的两项,它们构成的总体称为二项总体(binary population)。为便于研究,通常将二项总体中的“此”事件以变量“1”表示,概率p,“彼”,以“0”表示,具概...原创 2018-09-06 16:33:42 · 4807 阅读 · 0 评论 -
Pearson,Kendall和Spearman三种相关分析方法的异同
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,...转载 2018-09-06 10:24:26 · 34311 阅读 · 2 评论 -
理论分布和抽样分布------(一)事件、概率和随机变量(离散、连续)
抽样分布:从间断性变数总体的理论分布(二项分布和泊松分布)和连续性变数总体的理论分布中抽出的样本统计数的分布,即抽样分布。一、事件和事件发生的概率事件:在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件事件的概率:每一件事出现的可能性,称为该事件的概率(probability)。随机事件:某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件(ran...原创 2018-09-05 17:29:43 · 2801 阅读 · 0 评论