统计分析
满腹的小不甘
这个作者很懒,什么都没留下…
展开
-
距离度量:闵氏、欧式、马氏、余弦、汉明等
目录1. 闵氏距离(Minkowski Distance)2. 欧式距离(Euclidean Distance)3. 标准化欧式距离(Standardized Euclidean distance)4 马氏距离(Mahalanobis Distance)1. 闵氏距离(Minkowski Distance)闵氏距离又叫做闵可夫斯基距离,是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。定义式: ...转载 2020-07-09 13:16:31 · 7780 阅读 · 1 评论 -
K-d tree
在计算机科学中,k-d树(k-dimensional的缩写)是一种空间划分数据结构,用于组织k维空间中的点。k-d树是几种应用程序的有用数据结构,例如涉及多维搜索关键字的搜索(例如范围搜索和最近邻居搜索)。k-d树是二进制空间划分树的一种特殊情况。...转载 2020-07-08 22:31:29 · 290 阅读 · 0 评论 -
随机游走算法
随机游走(Random Walk,缩写为 RW),又称随机游动或随机漫步,是一种数学统计模型,它是一连串的轨迹所组成,其中每一次都是随机的。它能用来表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程记录。因此,它是记录随机活动的基本统计模型。Random Walk 是随机过程(Stochastic Process)的一个重要组成部分,通常描述的是最简单的一维 Random Walk 过程。下面给出一个例子来说明:考虑在数轴原点处有一只蚂蚁,它从当前位置(记为x(t) )出发,在下一个时刻(...转载 2020-06-16 17:27:24 · 14034 阅读 · 1 评论 -
五种常用的异常值检测方法(均方差、箱形图、DBScan 聚类、孤立森林、Robust Random Cut Forest)
https://blog.csdn.net/u013328485/article/details/95043012转载 2020-01-07 17:58:04 · 2420 阅读 · 0 评论 -
粒子滤波
目录1. 状态空间模型2. 粒子滤波2.1 概念2.2 粒子滤波算法原理2.3 局限性3. 代码实现1. 状态空间模型状态空间模型是动态时域模型,以隐含着的时间为自变量。状态空间模型在经济时间序列分析中的应用正在迅速增加。其中应用较为普遍的状态空间模型是由Akaike提出并由Mehra进一步发展而成的典型相关(canonical correlation)方法...原创 2019-11-27 09:51:00 · 7405 阅读 · 1 评论 -
卡尔曼滤波
https://blog.csdn.net/honyniu/article/details/88697520https://blog.csdn.net/u012912039/article/details/100771130目录1. 模型的系统方程和状态方程2. 卡尔曼滤波过程3. 五个基本公式4. 代码实现https://blog.csdn.net/heyijia03...原创 2019-11-25 10:24:52 · 911 阅读 · 1 评论 -
隐马尔科夫模型(HMM)
出处:视频截图,b站shuhuai008目录代码实现:hmmlearn1. 背景1.1 数理统计学两大派1.2 概率图2. HMM2.1 一个模型,两个假设,三个问题2.2 Evaluation问题(1)前向(2)后向2.3 Learning问题2.4 Decoding问题3. 总结3.1 HMM3.2 动态模型(Dynamic Mo...原创 2019-07-07 16:38:06 · 35590 阅读 · 5 评论 -
AIC-赤池信息准则、BIC-贝叶斯信息准则
1、AIC准则2、BIC准则转载 2019-07-25 08:52:56 · 11564 阅读 · 0 评论 -
数学基础:高斯分布
1. 最大似然估计(MLE) 概念:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。例如,已知分布是正态分布,但是不知道均值和方差;或者已知是二项分布,但是不知道均值。 最大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。 MLE的目标是找出...原创 2019-08-01 15:55:52 · 2070 阅读 · 0 评论 -
凸函数,凸优化问题,凸二次规划问题
https://blog.csdn.net/promisejia/article/details/81241201二次规划:https://baike.baidu.com/item/%E4%BA%8C%E6%AC%A1%E8%A7%84%E5%88%92/4269159?fr=aladdin原创 2019-08-08 09:36:35 · 943 阅读 · 0 评论 -
拉格朗日乘子法 & KKT条件
目录1. 拉格朗日乘子法用于最优化的原因2. 最优化问题三种情况2.1 无约束条件2.2 等式约束条件:拉格朗日乘子法2.3 不等式约束条件:KKT3. Lagrange对偶函数3.1对偶函数与原问题的关系3.2 Lagrange对偶问题(1)弱对偶性(2)强对偶性(3)KKT条件 在求解最优化问题中,拉格朗日乘子法(Lagrange...原创 2019-08-08 10:18:17 · 6458 阅读 · 0 评论 -
卡尔曼滤波器算法(Kalman Filter)—— 数学推导,图文并茂
(1)HMM:隐变量是离散的(2)Kalman Filter:又叫 Linear Dynamic Model 或 Linear Gaussian Model 隐变量和观测变量都是连续的,都是服从高斯分布的 (3)Particle Filter:Non-Linear、Non-Guaaian1.Kalman Filter这里:Z为状态,相当...原创 2019-07-10 14:24:52 · 1576 阅读 · 0 评论 -
时间序列预测分析方法(一):相关分析
针对特定的预测问题,只是拥有数据还不够,想要从纷繁复杂的数据关系中挖掘出可用于预测的规律或模式,还得运用恰当的分析方法。比如聚类分析,恰当地选择聚类算法,可以按维度将数据适当地分群,根据各类的特征制订营销计划或决策,抑或是根据各类不冋规律建立起更有针对性的预测模型;还有常用的关联分析,可以从事物的历史数据中挖掘出变化规律有指导性地对未来进行预测,如此等等。本内容将分别介绍常用的分析...原创 2019-06-18 14:35:11 · 31391 阅读 · 3 评论 -
模型参数优化(四):交叉验证、网格搜索
1.交叉验证1.1 基本概念 交叉验证的基本思想是将数据集分割成N份,依次使用其中1份作为测试集,其他N1份整合到一起作为训练集,将训练好的模型用于测试集上,以得到模型好坏的判断或估计值,可以得到N个这样的值。交叉验证通常用于估计模型的误差,这里将N个对应的误差求平均作为对模型误差的估计。也可以根据这N个值,选岀拟合效果最好的模型,对应模型的参数也被认为是最优或接近最优的,因此...原创 2019-06-25 17:37:40 · 3466 阅读 · 0 评论 -
MIC:最大信息系数
目录1. 概念1.1 MIC1.2 互信息2.MIC的优点3. 算法原理3.1 MIC公式原理3.2MIC计算步骤(1)计算最大互信息值(2)对最大的互信息值进行归一化(3)选择不同尺度下互信息的最大值作为MIC值4. 代码实现6. 其他方法1. 概念1.1 MIC MIC,即(Maximal Information...原创 2019-05-27 15:33:27 · 47450 阅读 · 10 评论 -
R语言:异常数据处理
前言 在数据处理中,尤其在作函数拟合时,异常点的出现不仅会很大程度的改变函数拟合的效果,而且有时还会使得函数的梯度出现奇异梯度,这就导致算法的终止,从而影响研究变量之间的函数关系。为了有效的避免这些异常点造成的损失,我们需要采取一定的方法对其进行处理,而处理的第一步便是找到异常点在数据中的位置。 什么是异常值?如何检测异常值?目录 1. 单变量异常值检测 2. 使用LOF(...转载 2019-06-05 14:36:42 · 7300 阅读 · 0 评论 -
时间序列预测之一:指数平滑法(一)理论
目录1. 基础知识2. 简单滑动平均(rolling mean)3. 指数平均(EXPMA)3.1 一阶指数平滑3.2 二次指数平滑3.3 三次指数平滑预测4. 二次指数平滑法实例分析 指数平滑法,用于中短期经济发展趋势预测。全期平均法:简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;移动平均法:移动平均法则不考虑较远期...原创 2019-06-05 17:30:17 · 26003 阅读 · 2 评论 -
时间序列预测之一:指数平滑法(二)R语言——代码实现
参考:https://www.cnblogs.com/fengzzi/p/10044426.html指数模型是用来预测时序未来值的最常用模型。这类模型相对比较简单,但是实践证明它们的短期预测能力较好。不同指数模型建模时选用的因子可能不同。比如单指数模型(simple/single exponential model)拟合的是只有常数水平项和时间点i处随机项的时间序列,这时认为时间序列不...转载 2019-06-06 10:34:31 · 10698 阅读 · 1 评论 -
时间序列预测之二:灰色模型
目录1、简介(1)常见系统分类(2)灰色预测法2. 灰色生成数列(1)累加生成(AGO)(2)累减生成(IAGO)(3)加权邻值生成3. 灰色模型GM(1,1)4. 检验预测值(1)残差检验:计算相对残差(2)级比偏差值检验:计算1、简介 灰色模型(Gray Model),常用来对数据进行预测。灰色预测是针对灰色系统所做的预测。...原创 2019-06-06 17:16:27 · 20514 阅读 · 1 评论 -
时间序列预测:Prophet模型
目录1. 简介2. 适用条件3. 安装教程4. 使用详解5. 参考内容1. 简介 Prophet是FaceBook开源的时序框架,目前支持R语言和python语言。托管在github上。 Prophet的原理是分析各种时间序列特征:周期性、趋势性、节假日效应,以及部分异常值。Prophet充分的将业务背景知识和统计知识融合起来,它让我们可...原创 2019-06-03 11:33:14 · 2649 阅读 · 0 评论 -
时间序列预测之三:频谱分析(二)
关于谱分析的内容,参考我的另一篇文章:时间序列预测:谱分析1. 简介 由傅里叶理论可知,时域中的任何信号都可以由一个或多个具有适当频率、幅度和相位的正弦波叠加而成。也就是说,任何时域信号都可以变换成相应的频域信号,通过频域测量可以得到信号在某个特定频率上的能量值。频谱分析就是在频域上分析时间序列的方法,它使用傅里叶分析方法,将时域信号转换到频域,并从频域中找出信号频谱的变化规...原创 2019-06-19 15:30:11 · 14431 阅读 · 1 评论 -
模型参数优化(一):遗传算法
参数是指算法中的未知数,有的需要人为指定,比如神经网络算法中的学习效率,有的是从数据中拟合而来,比如线性回归中的系数,如此等等。在使用选定算法进行建模时,设定或得到的参数很可能不是最优或接近最优的,这时需要对参数进行优化以得到更优的预测模型。常用的参数优化方法主要包括交叉验证、网格搜索、遗传算法、粒子群优化、模拟退火,本节介绍遗传算法。 遗传算法实质:选定一批最佳参数,...原创 2019-06-25 15:57:39 · 26820 阅读 · 1 评论 -
模型参数优化(二):粒子群优化
1. 基本概念 粒子群优化,又称微粒群算法,来源于对—个简化社会模型的模拟,主要用于求解优化问题。 粒子群优化算法是 Kennedy和 Eberhart受人工生命硏究结果的启发,通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法。与遗传算法一样,它也是基于“种群”和“进化”的概念,通过个体间的协作与竞争,实现复杂空间最优解的搜索。但是,...原创 2019-06-25 17:27:45 · 3243 阅读 · 0 评论 -
模型参数优化(三):模拟退火
1. 基本概念 补充。。。2. 实现步骤3. 代码实现原创 2019-06-25 17:30:03 · 1717 阅读 · 0 评论 -
多项式函数曲线拟合——最小二乘法
多项式函数拟合的任务是假设给定数据由M次多项式函数生成,选择最有可能产生这些数据的M次多项式函数,即在M次多项式函数中选择一个对已知数据以及未知数据都有很好预测能力的函数。 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最...原创 2019-05-13 12:49:01 · 40057 阅读 · 5 评论