预测
文章平均质量分 85
拓端研究室
这个作者很懒,什么都没留下…
展开
-
R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
原文链接:http://tecdat.cn/?p=22849原文出处:拓端数据部落公众号当需要为数据选择最合适的预测模型或方法时,预测者通常将可用的样本分成两部分:内样本(又称 "训练集")和保留样本(或外样本,或 "测试集")。然后,在样本中估计模型,并使用一些误差指标来评估其预测性能。如果这样的程序只做一次,那么这被称为 "固定原点 "评估。然而,时间序列可能包含离群值,一个差的模型可能比更合适的模型表现得更好。为了加强对模型的评估,我们使用了一种叫做 "滚动原点 "的方法。滚动原.原创 2021-06-23 17:41:36 · 4659 阅读 · 0 评论 -
R语言用Hessian-free 、Nelder-Mead优化方法对数据进行参数估计
原文链接:http://tecdat.cn/?p=22828原文出处:拓端数据部落公众号主要优化方法的快速概述我们介绍主要的优化方法。我们考虑以下问题.无导数优化方法Nelder-Mead方法是最著名的无导数方法之一,它只使用f的值来搜索最小值。过程:设置初始点x1,...,xn+1 对点进行排序,使得f(x1)≤f(x2)≤⋯≤f(xn+1)。 计算xo作为x1,...,xn的中心点。 反射 计算反射点xr=xo+α(xo-xn+1)。 如果f(x1)≤f(x...原创 2021-06-21 18:38:15 · 771 阅读 · 0 评论 -
拓端tecdat|R语言乘法GARCH模型对高频交易数据进行波动性预测
原文链接:http://tecdat.cn/?p=22692在过去十年中,人们对高频交易和模型的兴趣成倍增长。虽然我对高频噪音中出现信号的有效性有一些怀疑,但我还是决定使用GARCH模型研究一下收益率的统计模型。与每日和较低频率的收益不同,日内高频数据有某些特殊的特点,使得使用标准的建模方法是无效的。在这篇文章中,我将使用花旗集团2008年1月2日至2008年2月29日期间的1分钟收益率。这个数据集删除了异常值。考虑的日内时间范围是09:30至16:00,即证券交易所的正式交易时间。与大多数此类..原创 2021-06-04 18:17:45 · 5491 阅读 · 0 评论 -
拓端tecdat|Python中用Prophet模型对天气时间序列进行预测与异常检测
原文链接:http://tecdat.cn/?p=22673方法Prophet异常检测使用了Prophet时间序列预测。基本的Prophet模型是一个可分解的单变量时间序列模型,结合了趋势、季节性和节假日效应。该模型预测还包括一个围绕估计的趋势部分的不确定性区间。另外,完全的贝叶斯推断也可以以增加计算量为代价。然后,不确定性区间的上限和下限值可以作为每个时间点的离群点阈值。首先,计算从观测值到最近的不确定度边界(上限或下限)的距离。如果观察值在边界内,离群点得分等于负距离。因此,当观测值与模..原创 2021-06-03 16:20:30 · 1814 阅读 · 1 评论 -
拓端tecdat|R语言:状态空间模型和卡尔曼滤波预测酒精死亡人数时间序列
原文链接:http://tecdat.cn/?p=22665摘要状态空间建模是一种高效、灵活的方法,用于对大量的时间序列和其他数据进行统计推断。本文介绍了状态空间建模,其观测值来自指数族,即高斯、泊松、二项、负二项和伽马分布。在介绍了高斯和非高斯状态空间模型的基本理论后,提供了一个泊松时间序列预测的说明性例子。最后,介绍了与拟合非高斯时间序列建模的其他方法的比较。绪论状态空间模型为几种类型的时间序列和其他数据的建模提供了一个统一的框架。结构性时间序列、自回归综合移动平均模型(ARIM..原创 2021-06-02 17:13:07 · 834 阅读 · 1 评论 -
拓端tecdat|R语言使用ARIMAX预测失业率经济时间序列数据
原文链接:http://tecdat.cn/?p=22521在大数据的趋势下,我们经常需要做预测性分析来帮助我们做决定。其中一个重要的事情是根据我们过去和现在的数据来预测未来。这种方法我们通常被称为预测。许多情况下都需要预测:决定是否在未来五年内再建一座发电站需要对未来的需求进行预测;安排下周呼叫中心的工作人员需要对呼叫量进行预测;储备库存需要对库存需求进行预测。一个事件的可预测性取决于几个因素,包括。我们对造成这种情况的因素了解得如何。 有多少数据可用。 预测是否能影响我们试图预测的.原创 2021-05-19 09:02:03 · 2130 阅读 · 2 评论 -
拓端tecdat|R语言用ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
原文链接:http://tecdat.cn/?p=22511 标准的ARIMA(移动平均自回归模型)模型允许只根据预测变量的过去值进行预测。该模型假定一个变量的未来的值线性地取决于其过去的值,以及过去(随机)影响的值。ARIMAX模型是ARIMA模型的一个扩展版本。它还包括其他独立(预测)变量。该模型也被称为向量ARIMA或动态回归模型。ARIMAX模型类似于多变量回归模型,但允许利用回归残差中可能存在的自相关来提高预测的准确性。本文练习提供了一个进行ARIMAX模型预测的练习。还..原创 2021-05-17 17:07:10 · 2077 阅读 · 3 评论 -
拓端tecdat|R语言经济学:动态模型平均(DMA)、动态模型选择(DMS)预测原油价格时间序列
原文链接:http://tecdat.cn/?p=22458简介本文提供了一个经济案例。着重于原油市场的例子。简要地提供了在经济学中使用模型平均和贝叶斯方法的论据,使用了动态模型平均法(DMA),并与ARIMA、TVP等方法进行比较。希望对经济和金融领域的从业人员和研究人员有用。动机事实上,DMA将计量经济学建模的几个特点结合在一起。首先,最终预测是通过模型平均化从几个回归模型中产生的。其次,该方法是贝叶斯方法,也就是说,概率是以相信程度的方式解释的。例如,对时间t的DMA预测只基于..原创 2021-05-11 17:21:55 · 1613 阅读 · 2 评论 -
拓端tecdat|R语言用LASSO,adaptive LASSO预测通货膨胀时间序列
原文链接:http://tecdat.cn/?p=22273动机如果你了解数据科学领域,你可能听说过LASSO。LASSO是一个对目标函数中的参数大小进行惩罚的模型,试图将不相关的变量从模型中排除。它有两个非常自然的用途,第一个是变量选择,第二个是预测。因为通常情况下,LASSO选择的变量会比普通最小二乘法(OLS)少得多,其预测的方差会小得多,代价是样本中出现少量的偏差。LASSO最重要的特点之一是它可以处理比观测值多得多的变量,我说的是成千上万的变量。这是它最近流行的主要原因之一。..原创 2021-04-21 16:21:12 · 1651 阅读 · 0 评论 -
拓端tecdat|R语言用Copulas模型的尾部相依性分析损失赔偿费用
两个随机变量之间的相依性问题备受关注,相依性(dependence)是反映两个随机变量之间关联程度的一个概念。它与相关性(correlation)有区别,常用的相关性度量是Pearson相关系数,它只度量了两个随机变量之间的线性关系,其值不仅依赖于它们的Copula函数,而且还依赖它们的边缘分布函数。直观地说,Copula函数就是两个(或多个)随机变量的联合分布可以表示为它们的边缘分布函数的函数,这个函数就是Copula函数,它与随机变量的边缘分布没有关系,所反映的是两个(多个)随机变量之间的“结构”,原创 2021-04-16 14:11:31 · 1192 阅读 · 0 评论 -
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
原文链接:http://tecdat.cn/?p=22215向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的。但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以使这些变量差分而平稳。这就是所谓的协整关系。由于知道这种关系可以改善分析的结果,所以希望有一个计量经济学模型,能够捕捉到这种关系。所谓的向量误差修正模型(VECMs)就属于这一类模型。下文介绍了VECMs的基本概念,并在R中估计这种模型。模型和数据向量误差修正模型与VAR模型非常相似,可以有如下形式。其..原创 2021-04-15 15:32:09 · 2841 阅读 · 0 评论 -
拓端tecdat|R语言如何用潜类别混合效应模型(lcmm)分析抑郁症状
原文链接:http://tecdat.cn/?p=22206模型背景每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化。当对重复测量的标志变量进行建模时,我们通常不会把它看成是一个有误差测量的潜过程。然而,这正是混合模型理论所做的基本假设。潜过程混合模型利用这个框架将线性混合模型理论扩展到任何类型的结果(有序、二元、连续、类别与任何分布)。潜类别混合模型潜类别混合模型在Proust-Lima等人中介绍(2006https://doi.org/10.11...原创 2021-04-15 14:07:39 · 3465 阅读 · 0 评论 -
拓端tecdat|R语言arima,向量自回归(VAR),周期自回归(PAR)模型分析温度时间序列
原文链接:http://tecdat.cn/?p=22071至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。单位根检验不能用来评估时间序列是否平稳。它们只能检测单整时间序列。季节性单位根也是如此。这里考虑月平均温度数据。> mon=read.table("temp.txt")> plot(mon)现在,我们可以计算所有年份的三个不同平稳性检验的p值for(y in 1955:2013){Temp[which(...原创 2021-04-09 16:46:00 · 2202 阅读 · 0 评论 -
拓端tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型
工资模型在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。加载包在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。数据本实验室将使用的数据是在全国935名受访者中随机抽取的。变量 描述原创 2021-03-29 13:38:01 · 2777 阅读 · 0 评论 -
拓端tecdat|R语言基于Bootstrap的线性回归预测置信区间估计方法
原文链接:http://tecdat.cn/?p=21625我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论。> reg=lm(dist~speed,data=cars)> points(x,pr..原创 2021-03-26 12:48:22 · 4488 阅读 · 0 评论 -
Python用ARIMA和SARIMA模型预测销量时间序列数据
原文链接:http://tecdat.cn/?p=21573介绍ARIMA模型是时间序列预测中一种常用的统计方法。指数平滑和ARIMA模型是时间序列预测中应用最为广泛的两种方法,它们是解决这一问题的补充方法。指数平滑模型是基于对数据趋势和季节性的描述,而ARIMA模型则是为了描述数据的自相关性。在讨论ARIMA模型之前,我们先来讨论平稳性的概念和时间序列的差分技术。平稳性平稳时间序列数据的性质不依赖于时间,这就是为什么具有趋势或季节性的时间序列不是平稳的。趋势和季节性会在不...原创 2021-03-24 15:03:25 · 1568 阅读 · 0 评论 -
拓端tecdat|R语言分布滞后线性和非线性模型(DLMs和DLNMs)分析时间序列数据
原文链接:http://tecdat.cn/?p=20953序言本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。Gasparrini等人[2010]和Gasparrini[2011]阐述了DLMs和DLNMs的发展以及时间序列数据的实现。本文描述的示例涵盖了时间序列数据DLNM方法的大多数标准应用,并探讨了DLNM包用于指定、总结和绘制此类模型。尽管这些例子在空气污染和温度对健康的影响方面有具体的应用,但它们很容易被推广到不同的主题,并为分析这些数据集或其他时间.原创 2021-03-10 12:20:11 · 4649 阅读 · 2 评论 -
拓端tecdat|R语言广义相加模型 (GAMs)分析预测CO2时间序列数据
原文链接:http://tecdat.cn/?p=20904 环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。原创 2021-03-07 22:46:13 · 3680 阅读 · 2 评论 -
拓端tecdat:Python | ARIMA时间序列模型预测航空公司的乘客数量
时间序列被定义为一系列按时间顺序索引的数据点。时间顺序可以是每天,每月或每年。以下是一个时间序列示例,该示例说明了从1949年到1960年每月航空公司的乘客数量。时间序列预测时间序列预测是使用统计模型根据过去的结果预测时间序列的未来值的过程。一些示例预测未来的客户数量。 解释销售中的季节性模式。 检测异常事件并估计其影响的程度。 估计新推出的产品对已售出产品数量的影响。时间序列的组成部分:代码:航空公司乘客的ETS分解数据集:# 导入所需的库....原创 2021-03-03 13:24:51 · 2570 阅读 · 1 评论 -
拓端tecdat|ARIMA模型预测CO2浓度时间序列-python实现
原文链接:http://tecdat.cn/?p=20424介绍时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法。在本教程中,我们将首先介绍和讨论自相关,平稳性和季节性的概念,然后继续应用最常用的时间序列预测方法之一,称为ARIMA。Python中可用的一种用于建模和预测时间序列的未来点的方法称为SARIMAX,它表示带有季节性回归的季节性自回归综合移动平均线。在这里,我们将主要关注ARIMA,....原创 2021-02-22 15:09:22 · 979 阅读 · 2 评论 -
拓端tecdat|R语言用多元ARMA,GARCH ,EWMA, ETS,随机波动率SV模型对金融时间序列数据建模
原文链接:http://tecdat.cn/?p=20015本文将说明单变量和多变量金融时间序列的不同模型,特别是条件均值和条件协方差矩阵、波动率的模型。均值模型本节探讨条件均值模型。iid模型我们从简单的iid模型开始。iid模型假定对数收益率xt为N维高斯时间序列:均值和协方差矩阵的样本估计量分别是样本均值和样本协方差矩阵我们从生成数据开始,熟悉该过程并确保估计过程给出正确的结果(即完整性检查)。然后使用真实的市场数据并拟合不同的模型。让我们生成合..原创 2021-02-10 18:17:48 · 1428 阅读 · 0 评论 -
拓端tecdat|使用Python中Keras的LSTM递归神经网络进行时间序列预测
时间序列预测问题是预测建模问题中的一种困难类型。与回归预测建模不同,时间序列还增加了输入变量之间序列依赖的复杂性。原创 2021-01-21 14:24:30 · 2475 阅读 · 0 评论 -
拓端tecdat|R语言多元逐步回归模型分析房价和葡萄酒价格:选择最合适的预测变量
包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。确实, 对于样本大小,在线性模型中可以考虑 的预测变量最大数量为 p 。或等效地,使用预测变量p 拟合模型需要最小样本量。...原创 2021-01-18 16:18:40 · 1992 阅读 · 1 评论 -
拓端tecdat|R语言资产配置: 季度战术资产配置策略研究
有人已经表示有必要在战术资产配置(Tactical Asset Allocation, 简称TAA)策略中使用共同基金而不是ETF。不是使用半月更新(每月两次),而是每季度更新,因为许多平台不允许更频繁地交易共同基金。因此,我们着手开发共同基金的TAA策略。...原创 2021-01-15 14:18:33 · 688 阅读 · 0 评论 -
拓端tecdat|bilibili视频流量数据潜望镜
最新研究表明,中国有超过7亿人在观看在线视频内容。Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个弹幕视频网站,最大的年轻人潮流文化娱乐社区,截至2020年3月31日的第一季度它已经拥有超过1.7亿的月度用户,反映了许多人认为的该行业令人眼花缭乱的未来。热门话题和分区B站用户日渐成熟,二次元、和游戏成为主流分区;视频量排名前三的分别是生活类、游戏类。其中动画类的分区大多和鬼畜、动漫热门话题相关,这是B站的特色。图表1电子竞技和......原创 2021-01-06 10:44:05 · 1068 阅读 · 0 评论 -
拓端tecdat|R语言分位数回归预测筛选有上升潜力的股票
现在,分位数回归已被确立为重要的计量经济学工具。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数。您可以使用它来查找具有良好上升潜力的股票。原创 2021-01-05 13:02:07 · 809 阅读 · 0 评论 -
拓端tecdat|R语言用ARIMA模型预测巧克力的兴趣趋势时间序列
在本文中我们对在Google趋势上的关键字“ Chocolate ”序列进行预测。序列如下原创 2020-12-28 17:27:06 · 2285 阅读 · 5 评论 -
拓端tecdat|R语言混合正态分布极大似然估计和EM算法
为了在统计过程中发现更多有趣的结果,我们将解决极大似然估计没有简单分析表达式的情况。举例来说,如果我们混合了各种分布,原创 2020-12-25 10:58:02 · 4444 阅读 · 7 评论 -
拓端tecdat|R语言分布滞后线性和非线性模型(DLM和DLNM)建模
前言本文说明了R包dlnm实现分布式滞后线性和非线性模型(DLM和DLNM)的建模框架的开发。首先,本文描述了除时间序列数据之外的DLM / DLNM方法的一般化方法,在Gasparrini [2014]中有更详细的描述。此外,此插图还说明了其他发展,特别是扩展的预测摘要的定义,现有功能或用户定义功能的灵活应用以及这些功能在回归分析中的更一般用途。本文档中包含的结果并不代表科学发现,而仅出于说.........原创 2020-12-23 15:00:40 · 8720 阅读 · 13 评论 -
拓端tecdat|R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
我根据泊松Poisson回归、GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测,原创 2020-12-18 12:14:24 · 2398 阅读 · 4 评论 -
拓端tecdat|R语言分位数回归Quantile Regression分析租房价格
本文想在R软件中更好地了解分位数回归优化。在查看分位数回归之前,让我们从样本中计算中位数或分位数。原创 2020-12-16 11:01:35 · 1726 阅读 · 0 评论 -
拓端tecdat|R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测
电力负荷预测是电网规划的基础,其水平的高低将直接影响电网规划质量的优劣。为了准确预测电力负荷,有必要进行建模。原创 2020-12-15 15:55:11 · 3655 阅读 · 13 评论 -
拓端tecdat|【视频】CNN(卷积神经网络)模型以及R语言实现
原文链接:http://tecdat.cn/?p=18149视频:R语言实现CNN(卷积神经网络)模型进行回归数据分析无人驾驶汽车最早可以追溯到1989年。神经网络已经存在很长时间了,那么近年来引发人工智能和深度学习热潮的原因是什么呢?[1秒]答案部分在于摩尔定律以及硬件和计算能力的显著提高。我们现在可以事半功倍。顾名思义,神经网络的概念是受我们自己大脑神经元网络的启发。神经元是非常长的细胞,每个细胞都有称为树突的突起,分别从周围的神经元接收和传播电化学信号。结果,我们的脑细胞形成..原创 2020-12-11 11:52:03 · 2953 阅读 · 0 评论 -
拓端tecdat|R语言中的多项式回归、B样条曲线(B-spline Curves)回归
在线性模型的文章中,我们已经了解了如何在给出协变量x的向量时构造线性模型。但更一般而言,我们可以考虑协变量的变换,来使用线性模型。原创 2020-12-02 11:36:49 · 5419 阅读 · 3 评论 -
拓端tecdat|Python计算股票投资组合的风险价值(VaR)
风险价值(VaR)用于尝试量化指定时间范围内公司或投资组合中的财务风险水平。VaR提供了一段时间内投资组合的最大损失的估计,您可以在各种置信度水平上进行计算。原创 2020-11-13 12:07:22 · 6214 阅读 · 6 评论 -
拓端tecdat|R语言Lee-Carter模型对年死亡率建模预测期望寿命
现在我们也可以对这项快速研究的局限性感到疑惑。特别是,正如有配偶的寿命之间存在很强的相关性,我们可能会问,孩子和孙子的出生是否具有对一个人的剩余生命的影响(或者我们是否可以像这样假设独立性)。...原创 2020-10-21 15:34:47 · 1672 阅读 · 0 评论 -
数据度量消费贷款—消费者的考虑因素数据分析
我们生活在互联网时代,越来越多的人选择在网上贷款消费 ,投资理财早已成为一门学问,一些有头脑的人通过小额的贷款让钱生钱也成为了一种可能,贷款消费的公司越来越多。▼房贷、车贷、企业贷、旅游贷、装修贷等各式各样的贷款出现在我们生活中,我们获取了贷款消费信息,试图分析影响消费贷款申请人数的因素。度量消费贷款的特征我们分析了不同城市的产品平均申请人数,可以看到,消费金融在上海、北京、深圳、杭州等城市等更加火爆,而在其他城市则相对冷清。图表1分析不同担保方式的产品平均申请人数,可以看...原创 2020-07-01 17:12:49 · 642 阅读 · 0 评论 -
如何用R语言绘制生成正态分布图表
这听起来可能是非常老套的,但对于ACT2121概率课程的考试(为精算师学会的P考试做准备),我将提供一个标准的正态分布表。问题在于它永远不是我们要寻找的那个(有时是生存函数,有时是累积分布函数,有时我们只考虑正值,等等)。这是本周五将进行的考试。现在,这是生成它的代码。我确实使用以下代码生成了表格(乳胶格式),> u=seq(0,3.09,by=0.01)......原创 2020-06-10 19:46:02 · 8298 阅读 · 0 评论 -
R语言基于递归神经网络RNN的温度时间序列预测
在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。我们将演示有关温度预测问题的所有三个概念,在这里您可以访问来自安装在建筑物屋顶上的传感器的时间数据序列。...原创 2020-05-21 11:12:16 · 838 阅读 · 0 评论 -
R语言ggmap空间可视化机动车碰撞–街道地图热力图
在本文中,我将扩展先前的分析,以创建纽约市机动车碰撞的市镇级热图。数据来自纽约市开放数据。特别是,我将从自治市镇级碰撞到街道级碰撞。代码的处理与之前的分析非常相似,只是有一些其他功能可以将街道映射为颜色。在下面,我加载ggmap包和数据,并且仅使经度和纬度信息发生冲突。library(ggmap)d=read.csv('.../NYPD_Motor_Vehicle_Colli.........原创 2020-05-05 16:30:35 · 671 阅读 · 0 评论