拓端
文章平均质量分 75
拓端研究室TRL
这个作者很懒,什么都没留下…
展开
-
R语言建立和可视化混合效应模型mixed effect model
最近我们被客户要求撰写关于混合效应模型的研究报告,包括一些图形和统计输出。我们已经学习了如何处理混合效应模型。本文的重点是如何建立和可视化混合效应模型的结果。线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例时长12:13。原创 2023-02-02 17:43:11 · 965 阅读 · 1 评论 -
R语言建模收入不平等:分布函数拟合及洛伦兹曲线(Lorenz curve)
但不是收入,而是收入的对数(由于某些离群值,我们无法在直方图上可视化)。对于累积分布函数,我考虑了最坏的情况(每个人都处于较低的收入中)和最好的情况(每个人都具有最高可能的收入)。另一个流行的方法是帕累托图(Pareto plot),我们在其中绘制了累积生存函数的对数与收入的对数,在此,在直方图上(由于已对数据进行分箱,因此很自然地绘制直方图),我们可以看到拟合的对数正态分布很好。现在,考虑一些更现实的情况,在这种情况下,我们没有来自调查的样本,但对数据进行了合并,在这里, 对数正态分布是一个很好的选择。原创 2023-02-02 17:42:05 · 648 阅读 · 0 评论 -
R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
最近我们被客户要求撰写关于回归的研究报告,包括一些图形和统计输出。原创 2023-02-02 17:41:21 · 414 阅读 · 0 评论 -
R语言ARIMA,SARIMA预测道路交通流量时间序列:季节性、周期性
最近我们被客户要求撰写关于时间序列的研究报告,包括一些图形和统计输出。原创 2023-02-02 17:40:53 · 1340 阅读 · 0 评论 -
ARIMA模型预测CO2浓度时间序列-python实现
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法。在本教程中,我们将首先介绍和讨论自相关,平稳性和季节性的概念,然后继续应用最常用的时间序列预测方法之一,称为ARIMA。Python中可用的一种用于建模和预测时间序列的未来点的方法称为SARIMAX,它表示带有季节性回归的季节性自回归综合移动平均线。在这里,我们将主要关注ARIMA,用于拟合时间序列数据以更好地理解和预测时间序列中的未来点。原创 2023-02-02 17:39:49 · 632 阅读 · 0 评论 -
Python中的Lasso回归之最小角算法LARS
最近我们被客户要求撰写关于Lasso的研究报告,包括一些图形和统计输出。假设我们期望因变量由潜在协变量子集的线性组合确定。然后,LARS算法提供了一种方法,可用于估计要包含的变量及其系数。原创 2023-02-02 17:37:33 · 502 阅读 · 0 评论 -
R语言Fama-French三因子模型实际应用:优化投资组合
最近我们被客户要求撰写关于Fama-French的研究报告,包括一些图形和统计输出。本文将说明金融数学中的R 语言优化投资组合,因子模型的实现和使用。原创 2023-02-02 17:36:28 · 503 阅读 · 0 评论 -
R语言基于递归神经网络RNN的温度时间序列预测
在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。在最后,您将了解有关将循环网络与Keras一起使用的大部分知识。您可以访问来自建筑物屋顶上的传感器的时间数据序列,例如温度,气压和湿度,这些数据点可用于预测最后一个数据点之后24小时的温度。这是一个相当具有挑战性的问题,它说明了使用时间序列时遇到的许多常见困难。删除层/每层的单位数(模型) 如L1或L2正则化所述,过度复杂的模型更有可能过度拟合,可以使用删除来抵抗重复图层的过拟合。堆叠循环层。原创 2023-02-02 17:14:50 · 586 阅读 · 0 评论 -
R语言神经网络模型预测车辆数量时间序列
通过反复模拟样本路径,我们基于拟合的神经网络建立了所有未来值的分布。这是对数据的9种将来可能的采样路径的模拟。其中yt-1 =(yt-1,yt-2,⋯,yt-8)是包含序列的滞后值的向量,f是一个神经网络,在单个层中具有4个隐藏节点。y * T + 1 =(y * T + 1,yT,⋯,yT-6)然后我们可以重复此过程来获得。通过从正态分布或从历史值中重采样随机生成ϵt的值,我们可以迭代地模拟该模型的未来样本路径。因此,如果{ϵ ∗ T + 1}是从时间T + 1的误差分布中随机抽取的,则。原创 2023-02-02 17:13:19 · 522 阅读 · 0 评论 -
R语言用多元ARMA,GARCH ,EWMA, ETS,随机波动率SV模型对金融时间序列数据建模
最近我们被客户要求撰写关于金融时间序列的研究报告,包括一些图形和统计输出。时间序列分析模型 ARIMA-ARCH GARCH模型分析股票价格数据本文将说明单变量和多变量金融时间序列的不同模型,特别是条件均值和条件协方差矩阵、波动率的模型。原创 2023-02-02 17:13:05 · 483 阅读 · 0 评论 -
R语言基于线性回归的资本资产定价模型(CAPM)
资本资产定价模型(CAPM)是用于确定是否在一个特定资产的投资是值得的。本质上,问题是:“该资产的回报是否值得投资?” 在本教程中,我们将应用CAPM模型,使用多元回归模型查看特定股票是否值得投资。原创 2023-02-02 17:11:49 · 526 阅读 · 0 评论 -
R语言中的BP神经网络模型分析学生成绩
最近我们被客户要求撰写关于BP神经网络的研究报告,包括一些图形和统计输出。在本教程中,您将学习如何在R中创建神经网络模型。神经网络(或人工神经网络)具有通过样本进行学习的能力。人工神经网络是一种受生物神经元系统启发的信息处理模型。它由大量高度互连的处理元件(称为神经元)组成,以解决问题。它遵循非线性路径,并在整个节点中并行处理信息。神经网络是一个复杂的自适应系统。自适应意味着它可以通过调整输入权重来更改其内部结构。原创 2023-02-02 17:11:11 · 342 阅读 · 0 评论 -
R语言量化交易RSI策略:使用支持向量机SVM
最近我们被客户要求撰写关于量化交易的研究报告,包括一些图形和统计输出。机器学习算法可用于找到最佳值来交易您的指标。原创 2023-02-02 17:10:34 · 253 阅读 · 0 评论 -
移动广告中基于点击率的数据策略
苹果设备用户点击率高的原因可能是:使用苹果设备的用户属于较高的收入群体,并且更有可能被广告吸引并点击它,或者苹果设备上的广告是更美观,对用户更具吸引力。因此,要提高广告的点击率,您可以专注于更改广告本身的大小并使用全插屏式广告。苹果设备在Inmobi 和iflytek平台上的点击率最高,超过60%,然而在Zplay和Baidu上的点击率没有超过6%,不同交易平台上广告点击率有一定的差异。不同设备型号的广告点击率有明显差别,苹果用户的广告点击率最高,约为27%,高于广告的平均点击率(20%)。原创 2023-02-02 17:10:16 · 125 阅读 · 0 评论 -
matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类
定义LSTM网络体系结构。将输入大小指定为大小为12的序列(输入数据的大小)。指定具有100个隐藏单元的双向LSTM层,并输出序列的最后一个元素。最后,通过包括大小为9的完全连接层,其后是softmax层和分类层,来指定九个类。如果可以在预测时使用完整序列,则可以在网络中使用双向LSTM层。双向LSTM层在每个时间步都从完整序列中学习。例如,如果您无法在预测时使用整个序列,比如一次预测一个时间步长时,请改用LSTM层。layers =现在,指定训练选项。将优化器指定为'adam'原创 2023-01-28 21:25:58 · 847 阅读 · 0 评论 -
R语言RStan贝叶斯示例:重复试验模型和种群竞争模型Lotka Volterra
Stan是命令式概率编程语言。Stan程序定义了概率模型。它声明数据和(受约束的)参数变量。它定义了对数后验。Stan推理:使模型拟合数据并做出预测。它可以使用马尔可夫链蒙特卡罗(MCMC)进行完整的贝叶斯推断。使用变分贝叶斯(VB)进行近似贝叶斯推断。最大似然估计(MLE)用于惩罚最大似然估计。Stan模型由六个程序块数据(必填转换后的数据。参数(必填转换后的参数。模型(必填生成的数量。数据块读出的外部信息。int x[N]原创 2023-01-28 21:25:16 · 717 阅读 · 0 评论 -
R语言Copula函数股市相关性建模:模拟Random Walk(随机游走)
最近我们被客户要求撰写关于Copula的研究报告,包括一些图形和统计输出。在引入copula时,大家普遍认为copula很有趣,因为它们允许分别对边缘分布和相依结构进行建模。原创 2023-01-28 21:24:39 · 849 阅读 · 0 评论 -
R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计
## 总结: #######################原创 2023-01-28 21:24:04 · 183 阅读 · 0 评论 -
stata马尔可夫Markov区制转移模型分析基金利率
最近我们被客户要求撰写关于马尔可夫Markov的研究报告,包括一些图形和统计输出。马尔可夫链原理可视化解释与R语言区制转换Markov regime switching实例,时长07:25马尔可夫链蒙特卡罗方法MCMC原理与R语言实现,时长08:47过程会随着时间的推移而发展,结果会发生变化。考虑一下经济衰退和扩张。在衰退开始时,产出和就业率下降并保持较低水平,然后,产出和就业率增加。从统计上讲,均值,方差和其他参数在各个状态之间都在变化。我们的问题是估计方案何时更改以及与每个方案关联的参数值。原创 2023-01-28 21:23:39 · 537 阅读 · 0 评论 -
使用Python中Keras的LSTM递归神经网络进行时间序列预测
最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。时间序列预测问题是预测建模问题中的一种困难类型。与回归预测建模不同,时间序列还增加了输入变量之间序列依赖的复杂性。用于处理序列依赖性的强大神经网络称为。长短期记忆网络或LSTM网络是深度学习中使用的一种递归神经网络,可以成功地训练非常大的体系结构。LSTM神经网络架构和原理及其在Python中的预测应用在本文中,您将发现如何使用Keras深度学习库在Python中开发LSTM网络,以解决时间序列预测问题。原创 2023-01-28 21:23:00 · 1864 阅读 · 0 评论 -
Python和R中使用交叉验证方法提高模型性能
模型表现差异很大的可能原因是什么?换句话说,为什么在别人评估我们的模型时会失去稳定性?在本文中,我们将探讨可能的原因。我们还将研究交叉验证的概念以及执行它的一些常用方法。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预测,并求这小部分样本的预测误差,记录它们的平方和。以下是交叉验证中涉及的步骤:保留样本数据集使用数据集的其余部分训练模型使用测试(验证)集的备用样本。帮助您评估模型性能的有效性。如果没有一种方法可以最有效地解决各种问题。原创 2023-01-28 21:21:55 · 410 阅读 · 0 评论 -
R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性分析
给出了基本统计摘要。在下文中,我们对上述一些相关指标进行了具体评论。在下文中,我们对上面显示的一些相关指标进行了评论。在下文中,我们对一些相关的上述指标进行了具体评论。原创 2023-01-28 21:21:11 · 1750 阅读 · 0 评论 -
R语言多元逐步回归模型分析房价和葡萄酒价格:选择最合适的预测变量
最近我们被客户要求撰写关于多元逐步回归的研究报告,包括一些图形和统计输出。包含更多的预测变量不是免费的:在系数估算的更多可变性,更难的解释以及可能包含高度依赖的预测变量方面要付出代价。确实, 对于样本大小在线性模型中可以考虑。或等效地,使用预测变量p 拟合模型需要最小样本量。下一部分代码的输出阐明了和之间的区别。当减小时,自由度量化的变异性的增加。既然我们已经更多地了解了预测变量过多的问题,我们将重点放在 为多元回归模型变量上。如果没有独特的解决方案,这将是一项艰巨的任务。原创 2023-01-28 21:20:45 · 921 阅读 · 0 评论 -
R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
最近我们被客户要求撰写关于文本挖掘的研究报告,包括一些图形和统计输出。托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。文本挖掘:主题模型(LDA)及R语言实现分析游记数据时长12:59。原创 2023-01-28 21:19:49 · 95 阅读 · 0 评论 -
R语言资产配置: 季度战术资产配置策略研究
总之,本文开发的共同基金策略可能对那些必须使用共同基金且只能按季度交易的投资者有所帮助。ETF重复了这种策略,因此,希望减少交易(仅按季度)的投资者可能也会发现此策略有用。根据每个季度选择排名最高的资产,5个月和20天的总收益率各占50%。过滤器是3个月的移动平均线。每个季度选择排名最高的共同基金的指标分别为5个月和20天的收益率,每个加权50%。必须通过3个月的移动平均线才能在任何给定时期内选择排名最高的共同基金。每个共同基金的要求都包括与ETF的高度相关性,因此ETF可以根据需要替换共同基金。原创 2023-01-28 21:19:09 · 138 阅读 · 0 评论 -
matlab用高斯曲线拟合模型分析新冠病毒COVID-19数据
最近我们被客户要求撰写关于新冠病毒的研究报告,包括一些图形和统计输出。原创 2023-01-28 21:18:47 · 599 阅读 · 0 评论 -
R语言HAR和HEAVY模型分析高频金融数据波动率
在学术界和金融界,分析高频财务数据的经济价值现在显而易见。它是每日风险监控和预测的基础,也是高频交易的基础。为了在财务决策中高效利用高频数据,高频时代采用了最先进的技术,用于清洗和匹配交易和报价,以及基于高收益的流动性的计算和预测。原创 2023-01-28 21:17:52 · 696 阅读 · 0 评论 -
R语言使用多元AR-GARCH模型衡量市场风险
最近我们被客户要求撰写关于GARCH的研究报告,包括一些图形和统计输出。时间序列分析模型 ARIMA-ARCH GARCH模型分析股票价格数据本文分析将用于制定管理客户和供应商关系的策略准则。董事会感到关切的是,公司已连续第五个季度未能实现盈利预期。股东不高兴。罪魁祸首似乎是商品销售成本的波动。原创 2023-01-28 21:17:13 · 357 阅读 · 0 评论 -
自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据
症状检测主题的新闻内容表达出最多积极情感,该话题下讨论的是医院中检测患者的症状,其次是城市服务以及学校相关的新闻内容,讨论了商店关闭,社区隔离和学校延迟开学等话题,生活主题也表达出较多的积极情感(关键词:时间、家庭),疫情增加了家人相处的时间(图1)。从中我们可以看到疫情相关的新闻中最关注的方面,首先是健康,家庭和隔离和出行,其中健康出现的频率最高。为此我们分析了疫情相关的新闻内容、发布时期以及发布内容的主题和情感倾向这些方面的数据,希望通过这些数据,能对这场疫情有更多的了解。原创 2023-01-28 21:16:37 · 237 阅读 · 0 评论 -
R语言自然语言处理(NLP):情感分析新闻文本数据
情感分析是自然语言处理(NLP),计算语言学和文本挖掘的核心研究分支。它是指从文本文档中提取主观信息的方法。换句话说,它提取表达意见的积极负面极性。人们也可能将情感分析称为观点挖掘相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据文本挖掘:主题模型(LDA)及R语言实现分析游记数据时长12:59。原创 2023-01-28 21:16:02 · 956 阅读 · 0 评论 -
r语言中对LASSO,Ridge岭回归和Elastic Net模型实现
有时,尤其是在变量数量很少的情况下,我们想在图上添加变量标签。我们首先生成带有10个变量的一些数据,然后,我们拟合glmnet模型,并绘制标准图。我们希望用变量名标记曲线。在路径的末尾放置系数的位置。原创 2023-01-28 21:15:03 · 807 阅读 · 0 评论 -
R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析
在最后一个示例中,我们将对该图进行一些自定义, 以便我们可以同时表示实际球员位置和SOM的预测位置。我们将从可视化开始。背景颜色绘制的球员点的背景代表其真实位置。# 为所有单元格制作仅背景颜色的矢量# 设置alpha以最大的预测置信度标准化。原创 2023-01-28 21:14:30 · 275 阅读 · 0 评论 -
R语言:逻辑回归ROC曲线对角线分析过程及结果
最近我们被客户要求撰写关于逻辑回归ROC的研究报告,包括一些图形和统计输出。原创 2023-01-28 21:13:51 · 996 阅读 · 0 评论 -
网络社群发现算法挖掘bilibili视频流量弹幕数据
可以看到游戏分区的视频播放量差异明显,网络游戏在播放量小于925的区间最多,电子竞技在小于332的区间最多,播放量越高的区间,出现越少。同时可以看到高播放量的游戏视频大多在混剪视频话题下。播放量整体还是大量的淹没视频,播放量小于332的达到了整体视频的45.6%,而播放量6171以上的只占到6.9%,按照“二八原则”,视频达到2176以上的播放量即达到B站视频实际效用的界限。原创 2023-01-28 21:12:37 · 229 阅读 · 0 评论 -
R语言分位数回归预测筛选有上升潜力的股票
在上部面板中,您可以看到,当市场上涨时(X轴上的正值很高),Y轴上的分散很大。在底部面板中,情况相反。当市场上涨时,您“非常了解”股票会发生什么,但是当市场处于下跌时,股票收益的不确定性就会降低。当市场上涨时,它们收益很好,但同时在下跌的过程中提供相对的确定性。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数。您可能会认为这与股票的beta有关,但是beta与OLS相关,并且是对称的。如果市场出现上涨,高beta股票将获得上行波动的收益,但对称地,当市场下跌时,您可能会遭受巨额亏损。原创 2023-01-28 21:10:50 · 252 阅读 · 0 评论 -
使用R语言做极大似然估计实例
换句话说,最大似然估计提供了一种在给定观测数据的情况下评估模型参数的方法,即“模型已确定且参数未知”。在普遍的理解中,最大似然估计是使用已知的样本结果信息来反向推断最有可能导致这些样本结果的模型参数值!最近我们被客户要求撰写关于极大似然估计的研究报告,包括一些图形和统计输出。在所有双射函数的意义上,极大似然估计是不变的。在上一张图中,我们达到了对数似然的最大值。根据以上计算,我们知道的极大似然估计。从数值角度来看,我们有相同的最优值。但是,我们的概率估计值属于。为了说明,考虑以下数据。的最大似然估计。原创 2023-01-28 21:10:19 · 1791 阅读 · 0 评论 -
R语言ROC曲线评价分类器的好坏
然后,我们将设定一个阈值(例如50%):如果Y取值1的概率超过阈值,我们将预测为1(否则为0)。在上图中,我们有4个点:阈值左侧的那些点(预测为0),如果位于底部,则分类很好,而位于顶部的分类很差;然后,我们可以进行逻辑回归,P(Y = 1∣x1,x2)= 1 +eβ0+β1x1 +β2x2eβ0+β1x1 +β2x2 ,我们可以表示平面(x_1,x_2)中的点,并且对y∈{0,1}中的y 使用不同的颜色。然后我们可以将y_i表示为得分的函数,即P(Y = 1∣x1,i ,x2,i),这次,曲线是线性的。原创 2023-01-28 21:09:21 · 155 阅读 · 0 评论 -
R语言Fisher检验探究地区间公寓价格的关系
因此,最终我们可以分类成三个不同的地区,如果目标是预测价格,则无需使用10类分类,而3类分类就足够了!我们在这里对公寓进行分组(这也可以通过简单的回归,这里5个解释变量并不重要)。我们再次开始,以最便宜的地区作为参考,我们想检验线性回归中接下来的两个地区的系数是否为零。我们将对前6种地区进行重组(并称A为地区重组)。如果我们看平均价格,按地区,我们得到。然后,我们有三组地区,名称分别为A,B和C。最近我们被客户要求撰写关于Fisher检验的研究报告,包括一些图形和统计输出。我们以这里最便宜的地区为参考,原创 2023-01-28 21:09:06 · 96 阅读 · 0 评论 -
如何在R语言中建立六边形矩阵热图heatmap可视化
最近我们被客户要求撰写关于六边形矩阵热图的研究报告,包括一些图形和统计输出。这是一个六边形热图可视化程序,主要用到的知识RColorBrewer,fields,也就是R中的可视化绘图库。本文希望SOM的结果以六边形热图可视化。让我向您展示如何在R中创建六边形热图!您必须根据自组织神经网络(SOM)的结果来创建自己的变量。输入变量变量是一个矩阵,可以作为热图的数字表示。因此,矩阵具有与SOM映射相同的行数和与SOM映射相同的列数,并且热图中的每个值表示一个六边形的值。这里[1,1]原创 2023-01-28 21:08:08 · 183 阅读 · 0 评论 -
视频:R语言中的时间序列分析模型:ARIMA-ARCH / GARCH模型分析股票价格
时间序列分析是统计学中的一个主要分支,主要侧重于分析数据集以研究数据的特征并提取有意义的统计信息来预测序列的未来值。时序分析有两种方法,即频域和时域。前者主要基于傅立叶变换,而后者则研究序列的自相关,并且使用Box-Jenkins和ARCH / GARCH方法进行序列的预测。本文将提供使用时域方法对R环境中的金融时间序列进行分析和建模的过程。第一部分涵盖了平稳的时间序列。第二部分为ARIMA和ARCH / GARCH建模提供了指南。接下来,它将研究组合模型及其在建模和预测时间序列方面的性能和有效性。原创 2023-01-28 21:07:32 · 210 阅读 · 0 评论