![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计
我不爱机器学习
这个作者很懒,什么都没留下…
展开
-
一元高斯分布(Univariate Gaussian Distribution)(详细说明,便于理解)
1、一元高斯分布的定义高斯分布也叫正态分布,主要用于连续变量的分布。假设有一变量,则其高斯分布形式为: 式中是均值(mean),是方差(variance),方差的平方根叫做标准误(standard deviation),方差的倒数叫做精度(precision)。高斯分布满足:高斯分布是归一化的(...原创 2020-01-15 11:16:01 · 8997 阅读 · 0 评论 -
多元高斯分布(Multivariate Gaussian Distribution)(详细说明,便于理解)
在深入了解多元高斯分布前,可以先了解一下一元高斯分布。接下来对多元高斯分布进行详细的说明与推导。对于 维的向量(连续变量),多变量(多元, multivariate Gaussian)高斯分布形式为: 式中的是 维的均值向量,是的协方差矩阵(covariance matrix),是的行列式(determinan...原创 2020-01-15 11:17:06 · 25099 阅读 · 6 评论 -
python3 自编线性回归(4种方法)
1、数据准备:import numpy as npx = np.array([0, 1, 2, 3])y = np.array([-1, 0.2, 0.9, 2.1])X, Y = x, y2、直线回归方程,适用于一元线性回归# 直线回归方程求解(y=bx+a+e)def regressgion(x, y): x_mean = np.mean(x) y_...原创 2019-11-13 10:31:58 · 904 阅读 · 2 评论 -
统计导论
统计学(statistics) 是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。 数据收集:取得统计数据 数据处理:将数据用图表等形式展示出来 数据分析:选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。...原创 2018-10-20 14:51:02 · 1024 阅读 · 0 评论 -
指数
一、基本问题1、指数概念指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。 指数是测定多项内容数量综合变动的相对数。概念要点:一是指数的实质是测定多项内容,如零售价格指数反映的是零售市场几百种商品价格变化 的整体状况。指数方法论核心是研究如何将多项内容合在一起,从整体上进行反映。二是其表现形式为动态相对数,既然是动态相对数,涉及指标的基期对比,不同要素基期的选择就成为指数...原创 2018-10-14 00:05:12 · 4294 阅读 · 0 评论 -
时间序列分析和预测(含实例及代码)
导论研究时间序列主要目的:进行预测,根据已有的时间序列数据预测未来的变化。时间序列预测关键:确定已有的时间序列的变化模式,并假定这种模式会延续到未来。时间序列预测法的基本特点 假设事物发展趋势会延伸到未来 预测所依据的数据具有不规则性 不考虑事物发展之间的因果关系 时间序列数据用于描述现象随时间发展变化的特征。时间序列分析就其发展历史阶段和所使...原创 2018-09-17 21:37:34 · 226480 阅读 · 45 评论 -
理论分布和抽样分布------(四)抽样分布
统计学的一个主要任务就是研究总体和样本之间的关系。这种关系可以从两个方向进行:(1)从总体到样本的方向,目的是要研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系,即抽样分布(2)从样本到总体的方向,从总体中随机抽取样本,并用样本对总体作出推论,即统计推断问题。抽样分布(sampling distribution)是统计推断的基础。一、统计数的抽样及其分布参数从总体中...原创 2018-09-08 11:43:30 · 7647 阅读 · 4 评论 -
科学试验及其误差控制
一、科学研究的基本过程和方法1、基本过程科学研究的目的在于探求新的知识、理论、方法、技术和产品。基本过程包括3个环节:a、根据本人的观察了解或前人的观察(文献)对所研究的命题形成一种认识或假说b、根据假说所涉及的内容安排相斥性试验或抽样调查c、根据试验或调查所获的资料进行推理,肯定或否定或修改假说,从而形成结论,或开始新一轮的试验以验证修改完善后的假说,如此循环发展,使所获得的...原创 2018-09-10 16:58:38 · 3030 阅读 · 0 评论 -
理论分布和抽样分布------(三)连续型随机变量的概率分布(正态分布)
正态分布(normal distribution),是连续性变数的理论分布。日常生活中许多数量指标总是正常范围内有差异。偏离正常,表现过高或过低的情况总是比较少,且越不正常的可能性越少,这就是所谓的常态或“正态”,可以用正态分布的理论及由正态分布衍生出来的方法来研究。一般作物产量和许多经济性状的数据均表现属正态分布。在适当条件下,可用来做二项分布及其它间断性或连续性变数分布的近似分布,就能...原创 2018-09-07 13:49:18 · 2053 阅读 · 0 评论 -
广义模型与线性模型 & 判别分析
线性模型 广义线性模型:Y不是正态分布 一般线性模型:X不是连续或正态分布 变量类型 模型选择 广义线性模型 广义线性模型:在广义线性模型中,均假定观察值y具有指数族 Logistic模型: 对数线性模型: poisson分布 一般线性模型 单因素随机区组试...原创 2018-10-20 20:04:24 · 2038 阅读 · 0 评论 -
数据的搜集
一、数据的来源1、间接来源定义:数据由别人通过调查或实验的方式搜集,使用者只是找到它们并加以使用优点:二手资料搜集容易,采集数据成本低,很快得到局限:二手资料不是为特定的研究问题而产生的,所以在回答所研究的问题方面有欠缺对二手资料评估:资料是谁搜集的?考察数据搜集者的实力和社会信誉度。政府或机构 为什么目的而搜集?为了某个集团利益而搜集数据是值的怀疑的 数据是怎样搜集的...原创 2018-10-19 18:35:01 · 10050 阅读 · 0 评论 -
聚类分析
一、聚类分析介绍基本概念:cluster analysis 是研究物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。 分析方法:系统聚类法(hclust)和快速聚类法(kmeans). 聚类分析的类型:Q型聚类:对样品的聚类;R型聚类:对变量的聚类 聚类统计量: 二、系统聚类法基本思...原创 2018-10-21 11:01:02 · 8482 阅读 · 0 评论 -
主成分分析
一、概念主成分分析的提出:principal component analysis,是将多个指标化为少数几个综合指标的一种统计分析方法,即通过降维技术把多个变量化为少数几个主成分的方法。 基本思想:将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 数学处理:就是将原来p个指标作线性组合,作为新的指标。x1和x2相关性高,正交变换成y1和y2,相关性变低,...原创 2018-10-21 13:30:32 · 1110 阅读 · 0 评论 -
因子分析
一、与主成分的联系与区别区别 主成分是通过线性组合将原变量综合成几个主成分 因子分析通过构建若干意义比较明确的公因子 主成分分析是变异数导向的方法 因子分析是共变异数导向的方法 联系 因子分析是主成分分析的推广 二、因子分析思想特点 因子变量数远少于原变量数 因子变量是一种新的综合 因子变量之间没有相...原创 2018-10-21 16:56:22 · 7605 阅读 · 0 评论 -
对应分析
对应分析的提出:因子分析的不足 因子分析法分为R型因子分析和Q型因子分析。R型因子分析研究变量(指标)之间的相关关系,Q型因子分析研究样本之间的相关关系。 有时不仅关心变量之间或样本之间的相关关系,还关心变量和样本之间的对应关系,这是因子分析方法不能解释的。 对应分析(correspondence analysis)概念 定义:研究样本和变量之间的关...原创 2018-10-21 17:58:45 · 19246 阅读 · 0 评论 -
典型相关分析
概念 探讨一组变量与另一组变量间的相互关系,canonical correlation analysis ,是简单相关和多元相关的延伸。 比较 分析原理 ...原创 2019-05-26 21:41:01 · 1170 阅读 · 2 评论 -
多维标度法
MDS基本概念 定义:多维标度法是利用客体间的相似性数据去揭示他们之间的空间关系的统计分析方法 种类: 度量化模型:若模型所需要的相似性数据是用距离尺度或比率尺度测得的 非度量化模型:若模型需要顺序量表水平的相似数据,称为非度量化模型 基本理论与方法 ...原创 2019-05-26 21:41:35 · 7213 阅读 · 0 评论 -
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation)
均方根值(RMS)+ 均方根误差(RMSE)+标准差(Standard Deviation) 1、均方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。 2、均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以...转载 2019-01-19 21:07:20 · 21003 阅读 · 0 评论 -
Pearson,Kendall和Spearman三种相关分析方法的异同
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,...转载 2018-09-06 10:24:26 · 32425 阅读 · 2 评论 -
理论分布和抽样分布------(二)离散型随机变量的概率分布(二项分布和泊松分布)
一、二项总体及二项式分布试验或调查中最常见的一类随机变数是整个总体的各组或单位可以根据某种性状的出现与否而分为两组。如:小麦种子发芽和不发芽,大豆种子叶色为黄色和青色。这类变数均属间断性随机变数,其总体中包含两项,即:非此即彼的两项,它们构成的总体称为二项总体(binary population)。为便于研究,通常将二项总体中的“此”事件以变量“1”表示,概率p,“彼”,以“0”表示,具概...原创 2018-09-06 16:33:42 · 4480 阅读 · 0 评论 -
次数分布和平均数、变异数间断性变数资料的整理
通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。资料整理和分析时试验工作的重要组成部分。一、总体及其样本具有共同性质的个体所组成的集团,称为总体(population)。总体根据事物的属性人为规定。总体所包含的个体数目可能是无穷多个,这种总体称为无限总体(infinite population)...原创 2018-09-09 22:12:41 · 3843 阅读 · 0 评论 -
直线回归和相关------(一)回归和相关的概念与直线回归(含最小二乘推导)
一、回归与相关的概念(1)函数关系与统计关系:两个或两个以上变数之间的关系可分为两类:函数关系和统计关系函数关系是一种确定性关系,即一个变数的任一变量必与另一个变数的一个确定的数值相对应。两者之间的关系是完全确定的,函数关系不包含误差的干扰,常见于物理学、化学等。统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。在实验科学中两...原创 2018-08-27 22:59:39 · 12438 阅读 · 0 评论 -
统计假设测验------(四)方差分析(F测验、多重比较原理与方法)
一、方差分析基本原理1、方差分析(analysis of variance):k(k>=3)个样本平均数假设测验方法。 与j无关的变量都看成常数,此时summation代表的是次数 方差分析基本步骤: (1)将资料总变异的自由度和平方和分解为各变异原因的自由度和平方和,并算的其均方 (2)计算均方比,做出F测验,以明了各变异因素的重要程度...原创 2018-08-23 20:38:34 · 26030 阅读 · 0 评论 -
直线回归和相关------(三)直线回归的矩阵求解以及公式推导
三、直线回归的矩阵求解(1)直线回归方程的矩阵求解矩阵运算可以参考:http://www2.edu-edu.com.cn/lesson_crs78/self/j_0022/soft/ch0605.html通过以上公式可推导出b的公式。(2)直线回归假设测验的矩阵解法 上面的计算要用到离回归的标准误时,要用到Q,计算公式如下:...原创 2018-08-28 09:24:36 · 1554 阅读 · 0 评论 -
直线回归和相关------(二)直线回归的假设测验和区间估计以及matlab实现
一、直线回归的假设测验(1)回归关系的假设测验若X和Y变数总体并不存在直线回归关系,则随机抽取一个样本也可用上节的方法算得一个直线方程。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必须测定其来自无直线回归关系总体的概率大小。当这种概率小于0.05或0.01时,才能冒险确认其所存在的总体关系存在着直线回归关系。这就是回归关系的假设测验,可有t测验或F测验给出。t测验:...原创 2018-08-28 14:00:29 · 5475 阅读 · 0 评论 -
多元回归与相关------(二)多元相关和偏相关
在 M=m+1 个变数中,m个变数的综合和一个变数的相关,叫做多元相关或负相关(multiple correlation);其余M-2个变数皆固定时,指定的两个变数间相关,叫做偏相关(partial correalation)。从相关关系的性质看,多元相关和偏相关的M个变数都是随机变数,并无自变数和依变数之分。多元相关和偏相关的统计数也常用于有自变数和依变数之分的资料,并作为回归显著性...原创 2018-08-31 19:17:40 · 17033 阅读 · 3 评论 -
直线回归和相关------(四)直线相关系数和决定系数(原理与公式推导)
一、相关系数对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y 相关密切程度及其性质的统计数 —— 相关系数。一般以 表示总体相关系数,r表示样本相关系数。设有一X,Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到 ...原创 2018-08-28 22:18:27 · 20689 阅读 · 1 评论 -
统计假设测验------(一)基本原理(假设测验的两类错误)
1、导论:一个试验相当于一个样本,由一个样本平均数可以对总体平均数做出估计,但样本平均数是因不同样本而变化的,即样本平均数有抽样误差。用存在误差的样本平均数来推断总体,其结论并不是绝对正确的。把试验的表面效应与误差大小相比较并由表面效应可能属于误差的概率(抽样分布)而做出推论的方法称为统计推断。计算表面效应由误差造成的概率首先必须假设表面效应是由误差造成的,有了事先的假设,才能计算概率,这种先...原创 2018-08-21 18:26:00 · 7404 阅读 · 0 评论 -
直线回归和相关------(六)协方差分析
一、协方差分析的意义协方差(covariance)是两个变数的互变异数。对于一个具有N对(X,Y)的有限总体,定义: 对于由n对(x,y)组成的样本,则可定义为: 由上可知,样本协方差是乘积和与自由度的商,平均的乘积和。又称为均积(mean product)或协方,记作MP,是总体cov的估值。协方差分析(analysis of va...原创 2018-08-30 17:18:01 · 13578 阅读 · 3 评论 -
统计假设测验------(二)平均数的假设测验(t测验原理与公式)
1、t分布(t distribution)从一个平均数为、方差为的正态总体重抽样,或者在一个非正态总体里抽样只要样本容量有足够大,则所得一系列样本平均数的分布必趋于正态分布,具有,且遵循正态分布。测验,这类测验称u测验。但是测验只有在总体方差为已知,或者未知但样本容量相当大,可用直接作为估计值应用。当样本容量不太大(n<30)且未知时,样本均方估计总体方差,则其标准化离差u的分布不呈...原创 2018-08-21 22:22:31 · 5964 阅读 · 0 评论 -
统计假设测验------(五)卡平方测验
一、卡平方()测验定义和分布是相互独立的多个正态离差平方值的总和 。服从真高分布N(,),不一定来自同一个正态总体,即,可以是来自不同正态分布的参数。若研究对象属于同一个总体,则=,=。所研究的总体不知时,用替代。这一分布的自由度为独立的正态离差的个数,此处v=n,其分布图形为一组具不同自由度v值的曲线。值最小为0,最大为,因而在坐标轴的右面。自由度小时呈偏态,随着自由度增加,...原创 2018-08-24 20:47:29 · 1448 阅读 · 0 评论 -
统计假设测验------(三)参数区间估计和假设测验
1、为什么要进行参数区间估计:由样本计算统计数的目的在于对总体参数做出估计,如估计,这种估计称为点估计。但来自样本,由于抽样误差,不同样本将有不同的值,哪一个值最能代表,这是难以判断的。因此,有必要在一定的概率保证之下,估计出一个范围或区间能够覆盖参数。这个区间称置信区间(confidence interval),区间的上下限称为置信限(confidence limit),区间的长度称为置信距...原创 2018-08-22 10:54:21 · 1860 阅读 · 0 评论 -
直线回归和相关------(五)直线回归与相关的内在关系和应用要点(回归系数相关系数关系推导)
一、内在关系直线回归与相关的性质或方向(正或负)相同,显著性测验等价,说明两者之间存在着必然联系。两者有以下内在联系:(1)相关系数是标准化的回归系数 回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x,y的离均差以各自的标准差 和 为单位: ...原创 2018-08-29 10:32:28 · 12244 阅读 · 2 评论 -
曲线回归------(一)曲线的类型与特点及方程的配置
两个变数之间的关系不一定是简单的线性关系,可能是多种多样的曲线关系。X在某一区间上,X和Y的关系有可能用线性描述,但X可能取值的区间而言 ,可能是非线性。两个变数呈现曲线关系的回归称曲线回归(curvilinear regression)或非线性回归(non-linear regression)。以最小二乘法分析曲线关系资料在数量变化上的特征和规律,称为曲线回归分析或非线性回归分析。...原创 2018-09-03 11:47:04 · 18735 阅读 · 2 评论 -
曲线回归------(二)多项式回归
一、多项式回归方程(1)多项式回归方程式当两个变数间的曲线关系很难确定时,可用多项式逼近 ,称多项式回归(polynomial regression)。最简单的多项式是二次多项式,方程为:三次多项式方程为: 具有两个弯曲和一个拐点多项式方程的一般形式:特点:具有k-1个弯曲(k-1个极值)和k-2个拐点的曲线多项式回归方程通常只能用于描述试验范围内Y依X的变化关系...原创 2018-09-04 21:45:54 · 12415 阅读 · 0 评论 -
理论分布和抽样分布------(一)事件、概率和随机变量(离散、连续)
抽样分布:从间断性变数总体的理论分布(二项分布和泊松分布)和连续性变数总体的理论分布中抽出的样本统计数的分布,即抽样分布。一、事件和事件发生的概率事件:在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件事件的概率:每一件事出现的可能性,称为该事件的概率(probability)。随机事件:某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件(ran...原创 2018-09-05 17:29:43 · 2503 阅读 · 0 评论 -
残差分析(残差原理与标准化残差分析)
1、残差分析定义在回归模型 中,假定 的期望值为0,方差相等且服从正态分布的一个随机变量。但是,若关于的假定不成立,此时所做的检验以及估计和预测也许站不住脚。确定有关的假定是否成立的方法之一是进行残差分析(residual analysis).2、残差与残差图残差(residual)是因变量的观测值与根据估计的回归方程求出的预测 之差,用e表示。反映了用估计的回归方程去预测而引起的误...原创 2018-08-30 10:12:03 · 177426 阅读 · 12 评论 -
点估计、区间估计(利用回归方程进行预测)
回归模型经过各种检验并标明符合预定的要求后,可利用它来预测因变量。预测(predict)是指通过自变量x的取值来预测因变量y的取值。1、点估计利用估计的方程,对于x的一个特定值 ,求出y的一个估计值就是点估计。点估计分为两种:(1)平均值的点估计:实际上是对总体参数的估计是利用估计的回归方程,对于x的一个特定值,求出y的平均值的一个估计值(2)个别值的点估计:对因变量的某个具...原创 2018-08-30 11:32:57 · 31677 阅读 · 0 评论 -
多元回归与相关------(一)多元回归
一元回归:依变数Y对一个自变数X的回归。多元回归或复回归(multiple regression):依变数依两个或两个以上自变数的回归。主要内容:(1)确定各个自变数对依变数的单独效应和综合效应,建立由各个自变数描述和预测依变数反应量的多元回归方程。(2)对上述综合效应和单独效用的显著性进行测验,并在大量自变数中选择仅对依变数有显著效用的自变数,建立最优多元回归方程(3)评定各...原创 2018-08-26 21:43:51 · 9728 阅读 · 0 评论