大数据部落

R语言

关注

文章平均质量分 83

关注数：文章数：497 文章阅读量：1388832 文章收藏量：9413

作者: 拓端研究室

拓端 (tecdat.cn) 创立于2016年，致力于用算法充分挖掘数据价值，为客户提供研究支持、数据洞察、建模分析与报告定制等服务。

展开

专栏收录文章

R语言用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

原文链接：http://tecdat.cn/?p=23882摘要随机波动率（SV）模型是常用于股票价格建模的一系列模型。在所有的SV模型中，波动率都被看作是一个随机的时间序列。然而，从基本原理和参数布局的角度来看，SV模型之间仍有很大的不同。因此，为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标，可以使用留一交叉验证（LOOCV）方法。然而，LOOCV方法的计算成本很高，因此它在实践中的应用非常有限。在对SV模型的研究中，我们提出了两种新的模......

原创 2021-09-26 23:34:40 · 1599 阅读 · 0 评论
R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

原文链接：http://tecdat.cn/?p=23991原文出处：拓端数据部落公众号在这个例子中，我们考虑随机波动率模型SV0的应用，例如在金融领域。统计模型随机波动率模型定义如下并为其中yt是因变量，xt是yt的未观察到的对数波动率。N(m,σ2)表示均值m和方差σ2的正态分布。α、β和σ是需要估计的未知参数。BUGS语言统计模型文件内容'sv.bug'：moelfle='sv.bug'#BUGS模型.......

原创 2021-10-17 10:40:30 · 1650 阅读 · 0 评论
R语言指数平滑法holt-winters分析谷歌Google Analytics博客用户访问时间序列数据

原文链接：http://tecdat.cn/?p=23982原文出处：拓端数据部落公众号在等距时间段内以一系列点获得的数据通常称为时间序列数据。月度零售销售、每日天气预报、失业数据、消费者情绪调查等都是时间序列数据的经典示例。事实上，自然界、科学、商业和许多其他应用中的大多数变量都依赖于可以在固定时间间隔内测量的数据。分析时间序列数据的关键原因之一是了解过去并预测未来。科学家可以利用历史气候数据来预测未来的气候变化。营销经理可以查看某种产品的历史销售额并预测未来的需求。在数字..

原创 2021-10-15 12:43:34 · 1897 阅读 · 0 评论
R语言分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

原文链接http://tecdat.cn/?p=23947原文出处：拓端数据部落公众号摘要分布滞后非线性模型（DLNM）表示一个建模框架，可以灵活地描述在时间序列数据中显示潜在非线性和滞后影响的关联。该方法论基于交叉基的定义，交叉基是由两组基础函数的组合表示的二维函数空间，它们分别指定了预测变量和滞后变量的关系。本文在R软件实现DLNM，然后帮助解释结果，并着重于图形表示。本文提供指定和解释DLNM的概念和实践步骤，并举例说明了对实际数据的应用。关键字：分布滞后模型，时...

原创 2021-10-12 10:10:53 · 6092 阅读 · 1 评论
R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

原文链接：http://tecdat.cn/?p=23934原文出处：拓端数据部落公众号引言在本文中，我们将尝试为苹果公司的日收益率寻找一个合适的 GARCH 模型。波动率建模需要两个主要步骤。指定一个均值方程（例如 ARMA，AR，MA，ARIMA 等）。建立一个波动率方程（例如 GARCH, ARCH，这些方程是由 Robert Engle 首先开发的）。要做(1)，你需要利用著名的Box-Jenkins方法，它包括三个主要步骤。识别估算诊断检查这三个步.

原创 2021-10-08 17:41:26 · 4356 阅读 · 0 评论
R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

原文链接：http://tecdat.cn/?p=23902递归神经网络被用来分析序列数据。它在隐藏单元之间建立递归连接，并在学习序列后预测输出。在本教程中，我们将简要地学习如何用R中的Keras RNN模型来拟合和预测多输出的序列数据，你也可以对时间序列数据应用同样的方法。我们将使用Keras R接口在R中实现神经网络：准备数据定义模型预测和可视化结果我们将从加载R的必要包开始。library(keras)准备数据首先，我们将为本教程创建一个多输出数据......

原创 2021-09-28 21:58:14 · 2375 阅读 · 2 评论
R语言绘制圈图、环形热图可视化基因组实战：展示基因数据比较

原文链接：http://tecdat.cn/?p=23891可以使用环状图形展示基因数据比较。可以添加多种图展信息，如热图、散点图等。本文目标:可视化基因组数据制作环形热图环形热图很漂亮。可以通过R来实现环形热图。首先，让我们生成一个随机矩阵，并将其随机分成五组。mat1 = rbind(cbind(matrix(rnorm(50*5, mean = 1), nr = 50), matrix(rnorm(50*5, mean..

原创 2021-09-27 17:54:30 · 4821 阅读 · 0 评论
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化

原文链接：http://tecdat.cn/?p=24127介绍鲍鱼是一种贝类，在世界许多地方都被视为美味佳肴。铁和泛酸的极好来源，是澳大利亚、美国和东亚的营养食品资源和农业。100 克鲍鱼可提供超过 20% 的每日推荐摄入量。鲍鱼的经济价值与其年龄呈正相关。因此，准确检测鲍鱼的年龄对于养殖者和消费者确定其价格非常重要。然而，目前决定年龄的技术是相当昂贵且低效的。养殖者通常会切开贝壳并通过显微镜计算环数来估计鲍鱼的年龄。因此，判断鲍鱼的年龄很困难，主要是因为它们的大小不仅取决于它们的年龄，还..

原创 2021-10-29 23:38:31 · 4844 阅读 · 2 评论
R语言系统层次聚类数据分析评估三方科技公司开发人员能力可视化

“各公司信息科技的建设离不开三方科技公司的参与，而三方科技公司提供的开发人员能力高低不一，为提前识别高素质人员、提高后续工作效率，本文通过对现有人员基本情况、出勤情况、人员能力评分进行分析，构建相关模型，达到初选的目的。”要点提示本文对现有三方科技公司人员能力评分数据进行数据分析，提炼核心人员特征，对标签化流程、建模流程等工作流程中的分项任务进行阐述。主题一三方科技人员各维度能力评分关系为了分析两两定量工作能力评分之间的趋势，我们将各个维度的定量变量.

原创 2021-11-01 14:57:25 · 5604 阅读 · 0 评论
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

原文链接：http://tecdat.cn/?p=24134测试非线性回归中的交互作用因子实验在农业中非常普遍，它们通常用于测试实验因素之间相互作用的重要性。例如，可以在两种不同的施氮水平（例如高和低）下进行基因型评估，以了解基因型的排名是否取决于养分的可用性。对于那些不太了解农业的人，我只会说这样的评估是相关的，因为我们需要知道我们是否可以推荐相同的基因型，例如，在传统农业（高氮可用性）和有机农业中农业氮的可用性。让我们考虑一个实验，在该实验中，我们在完整的区组因子设计中以两种氮含量（“高..

原创 2021-11-01 17:38:13 · 2230 阅读 · 0 评论
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

原文链接：http://tecdat.cn/?p=24141背景贝叶斯模型提供了变量选择技术，确保变量选择的可靠性。对社会经济因素如何影响收入和工资的研究为应用这些技术提供了充分的机会，同时也为从性别歧视到高等教育的好处等主题提供了洞察力。下面，贝叶斯信息准则（BIC）和贝叶斯模型平均法被应用于构建一个简明的收入预测模型。这些数据是从 935 名受访者的随机样本中收集的。该数据集是计量经济学数据集系列的一部分。加载包数据将首先使用该dplyr包进行探索，并使用该ggplo.....

原创 2021-11-03 12:53:02 · 2930 阅读 · 4 评论
R语言集成模型：提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

原文链接：http://tecdat.cn/?p=24148原文出处：拓端数据部落公众号特别是在经济学/计量经济学中，建模者不相信他们的模型能反映现实。比如：收益率曲线并不遵循三因素的Nelson-Siegel模型，股票与其相关因素之间的关系并不是线性的，波动率也不遵循Garch(1,1)过程，或者Garch(?,?)。我们只是试图为我们看到的现象找到一个合适的描述。模型的发展往往不是由我们的理解决定的，而是由新的数据的到来决定的，这些数据并不适合现有的看法。有些人甚至可以说，现..

原创 2021-11-03 17:47:25 · 1006 阅读 · 0 评论
R语言主成分回归（PCR）、多元线性回归特征降维分析光谱数据和汽车油耗、性能数据

原文链接：http://tecdat.cn/?p=24152原文出处：拓端数据部落公众号什么是PCR？（PCR = PCA + MLR）• PCR是处理许多 x 变量的回归技术• 给定 Y 和 X 数据：• 在 X 矩阵上进行 PCA– 定义新变量：主成分（分数）• 在多元线性回归(MLR) 中使用这些新变量中的一些来建模/预测 Y• Y 可能是单变量或多变量。例子# 对数据set.seed(123)da1 <- marix(c(x1, x2,....

原创 2021-11-04 18:06:19 · 3458 阅读 · 0 评论
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、METROPOLIS HASTINGS采样时间序列分析

原文链接：http://tecdat.cn/?p=24162原文出处：拓端数据部落公众号在这个例子中，我们考虑马尔可夫转换随机波动率模型。统计模型设 yt为因变量，xt 为 yt 未观察到的对数波动率。对于 t≤tmax，随机波动率模型定义如下状态变量 ct 遵循具有转移概率的二状态马尔可夫过程N(m,σ2)表示均值 m和方差 σ2的正态分布。BUGS语言统计模型文件内容'vol.bug'：dlfie = 'vol.bug' #BUGS模型文....

原创 2021-11-05 21:22:13 · 582 阅读 · 0 评论
R语言估计多元标记的潜过程混合效应模型（LCMM）分析心理测试的认知过程

原文链接：http://tecdat.cn/?p=24172原文出处：拓端数据部落公众号背景和定义每个动态现象都可以用一个潜过程（Λ(t)）来表征，这个潜过程在连续的时间t中演化。有时，这个潜过程是通过几个标志来衡量的，因此潜过程是它们的共同因素。多元标记的潜过程混合模型Proust-Lima 等人引入了潜在过程混合模型。(2006 -A Nonlinear Model with Latent Process for Cognitive Evolution Us...

原创 2021-11-08 17:57:45 · 1351 阅读 · 0 评论
R语言极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR：多元化投资组合预测风险测度分析

原文链接：http://tecdat.cn/?p=24182原文出处：拓端数据部落公众号概要本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值（和条件 VaR）。使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验，并使用 Block Maxima 和 Peak-Over-Threshold 的 EVT 方法估计 VaR/CvaR。最后，使用条件异向性 (GARCH) 处理的广义自回归来预测未来 20 天后指数的未来值。本文将..

原创 2021-11-10 11:12:13 · 2731 阅读 · 0 评论
R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最优聚类数

原文链接：http://tecdat.cn/?p=24198简介《世界幸福报告》是可持续发展解决方案网络的年度报告，该报告使用盖洛普世界民意调查的调查结果研究了150多个国家/地区的生活质量。报告的重点是幸福的社交环境。在本项目中，我将使用世界幸福报告中的数据来探索亚洲22个国家或地区，并通过查看每个国家的阶梯得分，社会支持，健康的期望寿命，自由选择生活，慷慨，对腐败的看法以及人均GDP，来探索亚洲22个国家的相似和不同之处。我将使用两种聚类方法，即k均值和层次聚类，以及轮廓分析来验......

原创 2021-11-11 22:29:24 · 1805 阅读 · 0 评论
R语言贝叶斯广义线性混合效应（多层次/水平/嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据

原文链接：http://tecdat.cn/?p=24203原文出处：拓端数据部落公众号本教程使用R介绍了具有非信息先验的贝叶斯GLM（广义线性模型）。当前教程特别关注贝叶斯逻辑回归在二元结果和计数/比例结果场景中的使用，以及模型评估的相应方法。使用教育数据示例。此外，本教程简要演示了贝叶斯GLM模型的多层次扩展。本教程遵循以下结构：1.准备工作；2.GLM介绍；3.教育数据；4.数据准备；5.贝叶斯逻辑回归；6.贝叶斯二项Logistic回归；7.....

原创 2021-11-12 23:41:43 · 4667 阅读 · 0 评论
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据

原文链接：http://tecdat.cn/?p=24354原文出处：拓端数据部落公众号本文介绍简化模型构建和评估过程。caret包的train函数可用于使用重采样评估模型调整参数对性能的影响在这些参数中选择“最佳”模型从训练集估计模型性能首先，必须选择特定的模型。调整模型的第一步是选择一组要评估的参数。例如，如果拟合偏最小二乘 (PLS) 模型，则必须指定要评估的 PLS 组件的数量。一旦定义了模型和调整参数值，还应指定重采样的类型。目前，k折交叉验证....

原创 2021-11-19 12:22:44 · 1597 阅读 · 0 评论
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类：训练与结果评估可视化

原文链接：http://tecdat.cn/?p=24386原文出处：拓端数据部落公众号本文演示了训练一个简单的卷积神经网络 (CNN) 来对 CIFAR 图像进行分类。由于本教程使用 Keras Sequential API，因此创建和训练我们的模型只需几行代码。设置library(keras)下载并准备 CIFAR10 数据集CIFAR10 数据集包含 10 个类别的 60,000 张彩色图像，每个类别有 6,000 张图像。数据集分为 50,000 张训...

原创 2021-11-21 22:09:10 · 2628 阅读 · 0 评论
R语言GARCH建模常用软件包比较、拟合标准普尔SP 500指数波动率时间序列和预测可视化

原文链接：http://tecdat.cn/?p=24441原文出处：拓端数据部落公众号我们研究波动聚集，以及使用单变量 GARCH(1,1) 模型对其进行建模。波动聚集波动聚集——存在相对平稳时期和高波动时期的现象——是市场数据的一个看似普遍的属性。对此没有普遍接受的解释。GARCH（广义自回归条件异方差）模型波动聚集。图 1 是波动率的 garch 模型的示例。图 1：根据 garch(1,1) 模型估计的 2011 年底之前的标准普尔 500 指数波动率显...

原创 2021-11-26 12:02:38 · 4316 阅读 · 0 评论
R语言RStan MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

原文链接：http://tecdat.cn/?p=24456原文出处：拓端数据部落公众号如果你正在进行统计分析：想要加一些先验信息，最终你想要的是预测。所以你决定使用贝叶斯。但是，你没有共轭先验。你可能会花费很长时间编写 Metropolis-Hastings 代码，优化接受率和提议分布，或者你可以使用 RStan。Hamiltonian Monte Carlo（HMC）HMC 是一种为 MH 算法生成提议分布的方法，该提议分布被接受的概率很高。具体算法过程请查看参考文献...

原创 2021-11-26 19:52:59 · 1239 阅读 · 0 评论
大学生外卖市场需求状况调查数据可视化报告

原文链接：http://tecdat.cn/?p=22898原文出处：拓端数据部落公众号随着社会经济的发展，饮食生活已经逐渐融入了我们的日常生活世界，每天都不可避免地在 "吃 "的问题上有更多的考虑，吃好、吃多已经不再是我们的烦恼。要点提示外卖的盛行已经成为各地的普遍现象，越来越多的大学生喜欢呆在宿舍里，用电脑来解决一天的生活问题，外卖成了很多大学生的饮食选择。本文通过问卷调查，分析了大学生对外卖的看法。主题一外卖每餐花费调查对象以本科生为主，占

原创 2021-12-02 17:13:59 · 2610 阅读 · 0 评论
【数据分享】工人收入工资及其社会经济影响因素数据

原文链接：http://tecdat.cn/?p=24141数据简介社会经济因素如何影响收入和工资，收入是否存在性别歧视，高等教育对提高工资收入是否有好处？工人收入工资及其社会经济影响因素数据包含了935名样本的收入、教育、几个人口统计学变量和智商分数的信息，可用于分析相关人员的教育、工作经验、任期、性别、婚姻等因素对其工资的影响，从而可以为企业根据员工的相关背景开具工资提供参考依据。数据详情数据格式csv字段工资每周收入小时每周平均工作时

原创 2021-12-02 17:45:04 · 1816 阅读 · 0 评论
【数据分享】维基百科Wiki负面有害评论（网络暴力）文本数据多标签分类挖掘可视化

原文链接：http://tecdat.cn/?p=8640数据简介讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见。平台努力有效地促进对话，导致许多社区限制或完全关闭用户评论。AI团队正在研究工具，以帮助提高在线评论互动。一个重点领域是研究负面的在线行为，如有害评论（即粗鲁、不尊重或可能使某人离开讨论的评论）。到目前为止，他们已经构建了一系列可用模型。但是当前的模型仍然会出错，并且它们不允许用户选择他们感兴趣的有害评论类型，例如，某些平台可能

原创 2021-12-02 17:49:01 · 983 阅读 · 0 评论
【数据分享】银行客户流失Bank Customer Churn数据

原文链接：http://tecdat.cn/?p=8522数据简介客户流失是一个金融术语，指的是客户或客户的流失，即客户不再与公司或企业互动。同样，流失率是客户或客户在特定时间段内离开公司的比率。高于某个阈值的流失率会对公司的业务成功产生有形和无形的影响。理想情况下，公司希望尽可能多地留住客户。随着先进数据科学和机器学习技术的出现，公司现在可以识别可能在不久的将来停止与他们开展业务的潜在客户。在数据中，您将了解银行不同的客户属性（如年龄、性别、地理位置等）和客户流失。（查看文末了解数据获

原创 2021-12-02 17:54:46 · 2174 阅读 · 1 评论
【数据分享】某地区1959~2019年60年降雨量时间序列数据

原文链接：http://tecdat.cn/?p=23544数据简介每年的降雨量数据可能是相当不稳定的。与温度不同，温度通常在四季中表现出明显的趋势，而雨量作为一个时间序列可能是相当不稳定的。夏季的降雨量与冬季的降雨量一样多是很常见的。本数据为某地区1959年11月到2019年12月的降雨量数据（查看文末了解数据获取方式)。数据详情数据格式csv字段年月降雨量大小8.95kb样本量722数据浏览以前6行数据为例，我们来.

原创 2021-12-02 17:56:21 · 2285 阅读 · 2 评论
【数据分享】滤泡性淋巴瘤研究数据集

原文链接：http://tecdat.cn/?p=22422数据简介该数据集滤泡细胞淋巴瘤数据。该数据集由541名疾病早期的滤泡细胞淋巴瘤（I或II）患者组成，并接受单纯放疗（化疗=0）或放疗和化疗的联合治疗（化疗=1）。疾病复发或无反应和缓解期死亡是两个竞争风险。患者的年龄（年龄：平均=57，sd=14）和血红蛋白水平（hgb：平均=138，sd=15）也被记录。随访时间的中位数是5.5年。（查看文末了解数据获取方式)数据详情数据格式txt字段年龄血红.

原创 2021-12-02 17:57:28 · 1003 阅读 · 0 评论
【数据分享】糖尿病患者研究数据集

原文链接：http://tecdat.cn/?p=23848数据简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。（查看文末了解获取方式)数据详情数据格式csv字段怀孕次数

原创 2021-12-02 17:59:36 · 3117 阅读 · 3 评论
【数据分享】学生受欢迎程度评价数据集

原文链接：http://tecdat.cn/?p=10809数据简介受欢迎程度（简称：流行度）数据集由来自不同班级的学生组成，并且由于每个学生都属于一个唯一的班级，因此它是一个嵌套设计。因变量是“流行度”，它是一个学生自评的受欢迎程度，范围为0-10。预测指标包括学生级别的性别（二分变量）和Extrav（连续的自我评价的外向得分），以及班级的Texp（年份为单位的老师经验，是连续的）。数据详情数据格式sav字段学生id班级id外向程度学生性别教师

原创 2021-12-02 18:00:26 · 877 阅读 · 3 评论
【数据分享】错颌畸形生长患者治疗数据集

原文链接：http://tecdat.cn/?p=22956原文出处：拓端数据部落公众号数据简介受第三类错牙合畸形影响的患者（以下牙弓突出为特征），其骨骼不平衡在生命早期就产生，在青春期和骨骼成熟前会变得更加明显。在单个III类患者中早期预测治疗的成功或失败，使其更容易矫正，但仅从少量的形态决定因素中预测是很难做到的。原因是III类错颌畸形很少是单一颅面部件异常的结果，所以单个的临床和放射学测量值可能不如测量值本身的相互作用具有指示性。我们将使用的数据集包含143名患者（查.

原创 2021-12-04 19:44:47 · 479 阅读 · 0 评论
R语言估计获胜概率：模拟分析学生多项选择考试通过概率可视化

原文链接：http://tecdat.cn/?p=24852原文出处：拓端数据部落公众号“获胜概率”的实时计算（或估计）很困难。我们经常在足球比赛中，在选举中看到这种情况。考虑经典的多项选择考试。在每个问题之后，想象您尝试计算学生通过考试的概率。在这里考虑我们有 50 个问题的情况。学生在答对 25 个以上时通过。为了模拟，我假设学生在每个问题上只掷硬币，我有 n 个学生，50 个问题M=matrix令 Xi,j 表示学生 i在问题 j 的分数。让 Si,j 表示累积分.

原创 2021-12-26 21:37:18 · 694 阅读 · 0 评论
R语言生态学模拟对广义线性混合模型GLMM进行功率（功效、效能、效力）分析power analysis环境监测数据

原文链接：http://tecdat.cn/?p=24861原文出处：拓端数据部落公众号概括r 语言允许用户计算 lme 4 包中广义线性混合模型的功效。功率计算基于蒙特卡罗模拟。它包括用于 (i) 对给定模型和设计进行功效分析的工具；(ii) 计算功效曲线以评估功效和样本量之间的权衡。本文提供了一个教程，使用具有混合效果的计数数据的简单示例（具有代表环境监测数据的结构）。介绍假设检验的功效定义为假设原假设为假，检验拒绝原假设的概率。换句话说，如果一个效应是真实的，..

原创 2021-12-27 22:46:35 · 2089 阅读 · 0 评论
电商平台数据解锁网红零食销量密码

你知道“巨型猪饲料”“单身狗粮”是什么吗？这不是给动物吃的，也许你或多或少听说过，这些在网上引起巨大反响的零食，完全激起了大家的购买欲望。要点提示与传统食品相比，这种购物模式不需要消费者亲自到商店或市场去挑选商品，而是可以直接通过网络媒体完成，具有品种丰富、跨区域、价格优惠等优点。大数据"对于今天来说可能已经不再是一个新词，但数据如何在营销中发挥更深远的作用，一直是很多营销人思考的问题。真正在营销中玩转数据的新方式，应该是能够触及营销的核心问题--如何从数据中找到深...

原创 2021-12-31 16:22:48 · 1476 阅读 · 0 评论
R语言GGPLOT2绘制圆环图雷达图/星形图/极坐标图/径向图Polar Chart可视化分析汽车性能数据

原文链接：http://tecdat.cn/?p=24896原文出处：拓端数据部落公众号漂亮的圆形图。我不确定对数据分析师本身是否有额外的好处，但如果能吸引决策者的注意，那对我来说就是额外的价值。然而，用coord_polar()或偶尔发现的ggplot2中的coord_radar()构建它们可能很难。我发现的两个主要问题是，极坐标的变化会使你的路径弯曲成圆形，而且雷达无法与geom_bin结合使用来填充背景。这就是为什么我通常在笛卡尔坐标系统中使用。更像是一种.

原创 2022-01-01 11:26:30 · 2980 阅读 · 0 评论
R语言GGPLOT2绘制KOLMOGOROV-SMIRNOV KS检验图ECDF经验累积分布函数曲线可视化

原文链接：http://tecdat.cn/?p=24925原文出处：拓端数据部落公众号Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max|f(x)-g(x)|，当实际观测值D>D(n,α)则拒绝H0，否则则接受H0假设。KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况，可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分..

原创 2022-01-05 11:44:39 · 1224 阅读 · 0 评论
matlab稳态和时变卡尔曼滤波器Kalman filter的设计和仿真植物动力学模型案例研究

原文链接：http://tecdat.cn/?p=24947原文出处：拓端数据部落公众号本案例研究说明了卡尔曼滤波器的设计和仿真。考虑稳态和时变卡尔曼滤波器。植物动力学考虑一个在输入u[n]上有加性高斯噪声w[n]的离散植物。此外，让 yv[n] 是输出 y[n] 的噪声测量，其中 v[n] 表示测量噪声：离散卡尔曼滤波器该问题的稳态卡尔曼滤波器方程如下。测量更新：时间更新：在这些方程中： ˆx[nn

原创 2022-01-07 00:20:59 · 1846 阅读 · 0 评论
R语言分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集

原文链接：http://tecdat.cn/?p=24956原文出处：拓端数据部落公众号绘制分类或回归树的基本方法的 rpart() 函数只是调用 plot。然而，总的来说，结果并不漂亮。事实证明，一段时间以来，有一种更好的方法来绘制 rpart() 树。我们可以大概浏览下如何实现，并且进一步研究。# 绘制分类树图library(rpart) # 流行的决策树算法library(party) # 替代决策树算法library(partykit) # 将rpart对象转换为二.

原创 2022-01-08 16:04:54 · 1493 阅读 · 0 评论
R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

原文链接：http://tecdat.cn/?p=24973原文出处：拓端数据部落公众号简介世界卫生组织估计全世界每年有1200万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从而减少并发症。本研究旨在查明心脏病最相关/风险因素，并使用机器学习预测总体风险。数据准备来源该数据集来自对居民正在进行的心血管研究。分类目标是预测患者未来是否有10年患冠心病(CHD)的风险。数据集提供了...

原创 2022-01-10 17:44:07 · 3637 阅读 · 0 评论
R语言Fama French (FF) 三因子模型和CAPM多因素扩展模型分析股票市场投资组合风险/收益可视化

原文链接：http://tecdat.cn/?p=24983原文出处：拓端数据部落公众号本文我们超越了 CAPM 的简单线性回归，探索了 Fama French (FF) 股票风险/收益的多因素模型。FF 模型通过回归除市场收益之外的几个变量的投资组合收益来扩展 CAPM。从一般数据科学的角度来看，FF 将 CAPM 的简单线性回归（我们有一个自变量）扩展到多元线性回归（我们有许多自变量）。我们要看的是FF三因素模型，它测试的是（1）市场收益（与CAPM相同），（2）公司规模（小与大）和

原创 2022-01-11 20:06:01 · 2549 阅读 · 0 评论