数理统计
风景不在对岸wj
这个作者很懒,什么都没留下…
展开
-
常用泰勒展开
转载 2019-12-27 20:03:48 · 3794 阅读 · 0 评论 -
联合概率、边际概率、条件概率
一时忘了联合概率、边际概率、条件概率是怎么回事,回头看看。某离散分布:联合概率、边际概率、条件概率的关系:其中, Pr(X=x, Y=y)为“XY的联合概率”; Pr(X=x)为“X的边际概率”; Pr(X=x | Y=y)为“X基于Y的条件概率”; Pr(Y=y)为“Y的边际概率”;从上式子中可以看到: Pr(X=x, Y=y) = Pr(X=x | Y=y) *...转载 2018-08-01 07:53:08 · 2870 阅读 · 0 评论 -
回归预测评估指标
标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE=1n∑i=1n|fi−yi|MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 MSE=1n∑i=1n(fi−yi)2MSE=1n∑i=1n(fi−yi)2RMSE(Root Mean Square E...转载 2018-04-16 10:10:20 · 888 阅读 · 0 评论 -
mape( mean absolute percent error)
论坛上看到别人回复的,觉得有用,转载了。单看mape的大小是没有意义的,因为mape是个相对值,而不是绝对值。我个人觉得,mape的大小取决于三个因素:1, 取决于数据的variability, 比如如果你有两个正态分布,均值都是0,然后两个方差一个大,一个小,你可以试试用这两个分布来产生一些随机数,你的预测是0,但是你会发现方差大的mape大一些。2. mape取决于你的模型或预测,假设现在你只...转载 2018-04-16 09:53:06 · 28401 阅读 · 2 评论 -
几种分布概述(正态分布/卡方分布/F分布/T分布)
搞清楚了下面的几种分布,在置信区间估计、显著性检验等问题中就会收到事半功倍的效果。come on~! 正态分布:正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度...转载 2018-03-08 14:50:36 · 20710 阅读 · 0 评论 -
普通最小二乘法的推导证明
前言 普通最小二乘法(ordinary least squares, OLS)是线性回归预测问题中一个很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 简单回归模型 中,花了很详细的篇幅对此作出介绍。应聘数据挖掘岗位,就有考到对普通最小二乘法的推导证明。最小二乘法十分有用,例如可以用来做...转载 2018-03-08 14:49:37 · 2208 阅读 · 0 评论 -
基本概念:自变量和协变量
自变量是指研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因变量的原因。协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响响应。同时,它指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制 的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。那协变量和控制变量有什转载 2017-12-04 21:22:15 · 40971 阅读 · 0 评论 -
What is covariate(协变量)
http://hi.baidu.com/flykite083/blog/item/920f56636e803b640c33facb.htmlhttp://www.cnblogs.com/ysjxw/archive/2008/05/28/1209033.html I've found a good passage talking about covariate:Cov转载 2017-12-04 21:20:18 · 8014 阅读 · 0 评论 -
弗罗贝尼乌斯范数(Frobenius norm)
弗罗贝尼乌斯范数对 p = 2,这称为弗罗贝尼乌斯范数(Frobenius norm)或希尔伯特-施密特范数( Hilbert–Schmidt norm),不过后面这个术语通常只用于希尔伯特空间。这个范数可用不同的方式定义:A表示m*n的矩阵这里 A* 表示 A 的共轭转置,σi 是 A 的奇异值,并使用了迹函数。弗罗贝尼乌斯范数与 Kn 上欧几里得范数非常类似转载 2016-11-13 14:57:55 · 1960 阅读 · 0 评论 -
统计相关系数(3)——Kendall Rank(肯德尔等级)相关系数及MATLAB实现
Kendall Rank(肯德尔等级)相关系数1、简介在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相转载 2016-11-06 21:40:58 · 17701 阅读 · 2 评论 -
Kendall tau距离:求两个排列之间的逆序数
Kendall tau距离的定义以下定义取自wiki百科Kendall tau distance:The Kendall tau rank distance is a metric that counts the number of pairwise disagreements between two ranking lists. The larger the distance转载 2016-11-06 21:19:41 · 2079 阅读 · 0 评论 -
相关系数种类
相关系数种类 (一) Pearson积差相关(K. Pearson product-moment correlation ;r)1. X变数:等距、比率变量(连续变量)2. Y变数:等距、比率变量(连续变量)3. 公式:4. 特性:数值稳定、标准误小。5. 例:工作时数与收入的关系。(二) Spearman等级相关(Spear转载 2016-11-06 21:02:04 · 13911 阅读 · 0 评论 -
泊松分布和指数分布:10分钟教程
原文地址大学时,我一直觉得统计学很难,还差点挂科。工作以后才发现,难的不是统计学,而是我们的教材写得不好。比起高等数学,统计概念其实容易理解多了。我举一个例子,什么是泊松分布和指数分布?恐怕大多数人都说不清楚。我可以在10分钟内,让你毫不费力地理解这两个概念。一、泊松分布日常生活中,大量事件是有固定频率的。某医院平均每小时出生3个转载 2016-10-24 16:13:47 · 1528 阅读 · 0 评论 -
Spearman秩相关系数和Pearson皮尔森相关系数
1、Pearson皮尔森相关系数皮尔森相关系数也叫皮尔森积差相关系数,用来反映两个变量之间相似程度的统计量。或者说用来表示两个向量的相似度。皮尔森相关系数计算公式如下: 分子是协方差,分母两个向量的标准差的乘积。显然是要求两个向量的标准差不为零。当两个向量的线性关系增强时,相关系数趋于1(正相关)或者-1(负相关)。当两个变量独立时,相关系数为0。反之,不成立。比如对于,X服从[-1,1]上的均匀转载 2016-11-03 17:09:22 · 6538 阅读 · 0 评论 -
拉普拉斯平滑处理 Laplace Smoothing
原文地址背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑 为了解决零概率的问转载 2016-11-03 15:10:57 · 2198 阅读 · 0 评论 -
一文搞懂HMM(隐马尔可夫模型)
原文什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一转载 2016-09-19 22:24:31 · 854 阅读 · 0 评论 -
【非参数贝叶斯学习系列】Dirichlet distribution学习笔记
Dirichlet distribution是一个很重要 的分布,其是Dirichlet process 存在的基础,DP本身是得出非参贝叶斯估计中的求得先验分布的重要方法。这个分布本身其实是Beta分布在多元时的情况,其共轭为多项分布(对应的 Beta的共轭是二项分布)其实我对其中还是有些不是很明白的地方。希望能够有高手指正转载 2016-06-25 16:49:03 · 2571 阅读 · 0 评论 -
二项分布和Beta分布
二项分布和Beta分布本文通过实例介绍二项分布和Beta分布的含义,并使用pymc对抛硬币进行模拟实验,从而获得Beta分布http://hyry.dip.jp/tech/slice/slice.html/42In [15]:%pylab inlineimport pylab as plimport numpy as npfrom scipy im转载 2016-06-25 16:30:04 · 1671 阅读 · 0 评论