大数据部落

机器学习

关注

文章平均质量分 83

关注数：文章数：231 文章阅读量：419937 文章收藏量：3700

作者: 拓端研究室

这个作者很懒，什么都没留下…

展开

R语言用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

原文链接：http://tecdat.cn/?p=23882摘要随机波动率（SV）模型是常用于股票价格建模的一系列模型。在所有的SV模型中，波动率都被看作是一个随机的时间序列。然而，从基本原理和参数布局的角度来看，SV模型之间仍有很大的不同。因此，为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标，可以使用留一交叉验证（LOOCV）方法。然而，LOOCV方法的计算成本很高，因此它在实践中的应用非常有限。在对SV模型的研究中，我们提出了两种新的模......

原创 2021-09-26 23:34:40 · 1269 阅读 · 0 评论
R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

原文链接：http://tecdat.cn/?p=23991原文出处：拓端数据部落公众号在这个例子中，我们考虑随机波动率模型 SV0 的应用，例如在金融领域。统计模型随机波动率模型定义如下并为其中 yt 是因变量，xt是 yt 的未观察到的对数波动率。N(m,σ2) 表示均值 m和方差 σ2 的正态分布。α、β和 σ是需要估计的未知参数。BUGS语言统计模型文件内容'sv.bug'：moelfle = 'sv.bug' # BUGS模型.......

原创 2021-10-17 10:40:30 · 1268 阅读 · 0 评论
R语言指数平滑法holt-winters分析谷歌Google Analytics博客用户访问时间序列数据

原文链接：http://tecdat.cn/?p=23982原文出处：拓端数据部落公众号在等距时间段内以一系列点获得的数据通常称为时间序列数据。月度零售销售、每日天气预报、失业数据、消费者情绪调查等都是时间序列数据的经典示例。事实上，自然界、科学、商业和许多其他应用中的大多数变量都依赖于可以在固定时间间隔内测量的数据。分析时间序列数据的关键原因之一是了解过去并预测未来。科学家可以利用历史气候数据来预测未来的气候变化。营销经理可以查看某种产品的历史销售额并预测未来的需求。在数字..

原创 2021-10-15 12:43:34 · 1572 阅读 · 0 评论
Python在线零售数据关联规则挖掘Apriori算法数据可视化

原文链接：http://tecdat.cn/?p=23955关联规则学习在机器学习中用于发现变量之间的有趣关系。Apriori算法是一种流行的关联规则挖掘和频繁项集提取算法，在关联规则学习中有应用。它旨在对包含交易的数据库进行操作，例如商店客户的购买（购物篮分析）。除了购物篮分析之外，该算法还可以应用于其他问题。例如，在网络用户导航领域，我们可以搜索诸如访问过网页A和网页B的客户也访问过网页C的规则。Python sklearn 库没有 Apriori 算法，其中 Python 库M......

原创 2021-10-12 17:55:18 · 1954 阅读 · 0 评论
Python面板时间序列数据预测：格兰杰因果关系检验Granger causality test药品销售实例与可视化

原文链接：http://tecdat.cn/?p=23940原文出处：拓端数据部落公众号时间序列是以固定时间区间记录的观察序列。本指南带你完成在Python中分析一个给定的时间序列的特征的过程。内容什么是时间序列？如何在 Python 中导入时间序列？什么是面板数据？时间序列的可视化时间序列中的模式加法和乘法的时间序列如何将一个时间序列分解成其组成部分？平稳的和非平稳的时间序列如何使一个时间序列成为平稳的？如何测试平稳性？白噪声和平稳...

原创 2021-10-10 21:16:31 · 5322 阅读 · 4 评论
R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

原文链接：http://tecdat.cn/?p=23934原文出处：拓端数据部落公众号引言在本文中，我们将尝试为苹果公司的日收益率寻找一个合适的 GARCH 模型。波动率建模需要两个主要步骤。指定一个均值方程（例如 ARMA，AR，MA，ARIMA 等）。建立一个波动率方程（例如 GARCH, ARCH，这些方程是由 Robert Engle 首先开发的）。要做(1)，你需要利用著名的Box-Jenkins方法，它包括三个主要步骤。识别估算诊断检查这三个步.

原创 2021-10-08 17:41:26 · 3822 阅读 · 0 评论
python用支持向量机回归(SVR)模型分析用电量预测电力消费

原文链接：http://tecdat.cn/?p=23921原文出处：拓端数据部落公众号本文描述了训练支持向量回归模型的过程，该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量。关于支持向量机的快速说明支持向量机是机器学习的一种形式，可用于分类或回归。尽可能简单地说，支持向量机找到了划分两组数据的最佳直线或平面，或者在回归的情况下，找到了在容差范围内描述趋势的最佳路径。对于分类，该算法最大限度地减少了对数据进行错误分..

原创 2021-09-29 21:42:53 · 4722 阅读 · 1 评论
R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

原文链接：http://tecdat.cn/?p=23902递归神经网络被用来分析序列数据。它在隐藏单元之间建立递归连接，并在学习序列后预测输出。在本教程中，我们将简要地学习如何用R中的Keras RNN模型来拟合和预测多输出的序列数据，你也可以对时间序列数据应用同样的方法。我们将使用Keras R接口在R中实现神经网络：准备数据定义模型预测和可视化结果我们将从加载R的必要包开始。library(keras)准备数据首先，我们将为本教程创建一个多输出数据......

原创 2021-09-28 21:58:14 · 2037 阅读 · 2 评论
R语言绘制圈图、环形热图可视化基因组实战：展示基因数据比较

原文链接：http://tecdat.cn/?p=23891可以使用环状图形展示基因数据比较。可以添加多种图展信息，如热图、散点图等。本文目标:可视化基因组数据制作环形热图环形热图很漂亮。可以通过R来实现环形热图。首先，让我们生成一个随机矩阵，并将其随机分成五组。mat1 = rbind(cbind(matrix(rnorm(50*5, mean = 1), nr = 50), matrix(rnorm(50*5, mean..

原创 2021-09-27 17:54:30 · 3551 阅读 · 0 评论
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化

原文链接：http://tecdat.cn/?p=24127介绍鲍鱼是一种贝类，在世界许多地方都被视为美味佳肴。铁和泛酸的极好来源，是澳大利亚、美国和东亚的营养食品资源和农业。100 克鲍鱼可提供超过 20% 的每日推荐摄入量。鲍鱼的经济价值与其年龄呈正相关。因此，准确检测鲍鱼的年龄对于养殖者和消费者确定其价格非常重要。然而，目前决定年龄的技术是相当昂贵且低效的。养殖者通常会切开贝壳并通过显微镜计算环数来估计鲍鱼的年龄。因此，判断鲍鱼的年龄很困难，主要是因为它们的大小不仅取决于它们的年龄，还..

原创 2021-10-29 23:38:31 · 4330 阅读 · 2 评论
R语言系统层次聚类数据分析评估三方科技公司开发人员能力可视化

“各公司信息科技的建设离不开三方科技公司的参与，而三方科技公司提供的开发人员能力高低不一，为提前识别高素质人员、提高后续工作效率，本文通过对现有人员基本情况、出勤情况、人员能力评分进行分析，构建相关模型，达到初选的目的。”要点提示本文对现有三方科技公司人员能力评分数据进行数据分析，提炼核心人员特征，对标签化流程、建模流程等工作流程中的分项任务进行阐述。主题一三方科技人员各维度能力评分关系为了分析两两定量工作能力评分之间的趋势，我们将各个维度的定量变量.

原创 2021-11-01 14:57:25 · 5447 阅读 · 0 评论
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

原文链接：http://tecdat.cn/?p=24134测试非线性回归中的交互作用因子实验在农业中非常普遍，它们通常用于测试实验因素之间相互作用的重要性。例如，可以在两种不同的施氮水平（例如高和低）下进行基因型评估，以了解基因型的排名是否取决于养分的可用性。对于那些不太了解农业的人，我只会说这样的评估是相关的，因为我们需要知道我们是否可以推荐相同的基因型，例如，在传统农业（高氮可用性）和有机农业中农业氮的可用性。让我们考虑一个实验，在该实验中，我们在完整的区组因子设计中以两种氮含量（“高..

原创 2021-11-01 17:38:13 · 1753 阅读 · 0 评论
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

原文链接：http://tecdat.cn/?p=24141背景贝叶斯模型提供了变量选择技术，确保变量选择的可靠性。对社会经济因素如何影响收入和工资的研究为应用这些技术提供了充分的机会，同时也为从性别歧视到高等教育的好处等主题提供了洞察力。下面，贝叶斯信息准则（BIC）和贝叶斯模型平均法被应用于构建一个简明的收入预测模型。这些数据是从 935 名受访者的随机样本中收集的。该数据集是计量经济学数据集系列的一部分。加载包数据将首先使用该dplyr包进行探索，并使用该ggplo.....

原创 2021-11-03 12:53:02 · 2172 阅读 · 3 评论
R语言集成模型：提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

原文链接：http://tecdat.cn/?p=24148原文出处：拓端数据部落公众号特别是在经济学/计量经济学中，建模者不相信他们的模型能反映现实。比如：收益率曲线并不遵循三因素的Nelson-Siegel模型，股票与其相关因素之间的关系并不是线性的，波动率也不遵循Garch(1,1)过程，或者Garch(?,?)。我们只是试图为我们看到的现象找到一个合适的描述。模型的发展往往不是由我们的理解决定的，而是由新的数据的到来决定的，这些数据并不适合现有的看法。有些人甚至可以说，现..

原创 2021-11-03 17:47:25 · 819 阅读 · 0 评论
R语言主成分回归（PCR）、多元线性回归特征降维分析光谱数据和汽车油耗、性能数据

原文链接：http://tecdat.cn/?p=24152原文出处：拓端数据部落公众号什么是PCR？（PCR = PCA + MLR）• PCR是处理许多 x 变量的回归技术• 给定 Y 和 X 数据：• 在 X 矩阵上进行 PCA– 定义新变量：主成分（分数）• 在多元线性回归(MLR) 中使用这些新变量中的一些来建模/预测 Y• Y 可能是单变量或多变量。例子# 对数据set.seed(123)da1 <- marix(c(x1, x2,....

原创 2021-11-04 18:06:19 · 2755 阅读 · 0 评论
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、METROPOLIS HASTINGS采样时间序列分析

原文链接：http://tecdat.cn/?p=24162原文出处：拓端数据部落公众号在这个例子中，我们考虑马尔可夫转换随机波动率模型。统计模型设 yt为因变量，xt 为 yt 未观察到的对数波动率。对于 t≤tmax，随机波动率模型定义如下状态变量 ct 遵循具有转移概率的二状态马尔可夫过程N(m,σ2)表示均值 m和方差 σ2的正态分布。BUGS语言统计模型文件内容'vol.bug'：dlfie = 'vol.bug' #BUGS模型文....

原创 2021-11-05 21:22:13 · 407 阅读 · 0 评论
R语言估计多元标记的潜过程混合效应模型（LCMM）分析心理测试的认知过程

原文链接：http://tecdat.cn/?p=24172原文出处：拓端数据部落公众号背景和定义每个动态现象都可以用一个潜过程（Λ(t)）来表征，这个潜过程在连续的时间t中演化。有时，这个潜过程是通过几个标志来衡量的，因此潜过程是它们的共同因素。多元标记的潜过程混合模型Proust-Lima 等人引入了潜在过程混合模型。(2006 -A Nonlinear Model with Latent Process for Cognitive Evolution Us...

原创 2021-11-08 17:57:45 · 962 阅读 · 0 评论
R语言极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR：多元化投资组合预测风险测度分析

原文链接：http://tecdat.cn/?p=24182原文出处：拓端数据部落公众号概要本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值（和条件 VaR）。使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验，并使用 Block Maxima 和 Peak-Over-Threshold 的 EVT 方法估计 VaR/CvaR。最后，使用条件异向性 (GARCH) 处理的广义自回归来预测未来 20 天后指数的未来值。本文将..

原创 2021-11-10 11:12:13 · 2222 阅读 · 0 评论
Python 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化

原文链接：http://tecdat.cn/?p=24191原文出处：拓端数据部落公众号在这篇文章中，我将集中讨论一个给定一个短数据序列的推断概率的例子。我将首先介绍如何用贝叶斯方法进行期望推理的理论，然后在 Python 中实现该理论，以便我们能够处理这些想法。为了使文章更容易理解，我将只考虑一小组候选概率。我能够最小化推理的数学难度，同时仍然能够得到非常好的结果，包括先验、似然和后验图。具体来说，我将考虑以下情况：计算机程序输出一个由 1和 0组成的随机字符串。例如，一...

原创 2021-11-10 22:29:47 · 2402 阅读 · 0 评论
R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最优聚类数

原文链接：http://tecdat.cn/?p=24198简介《世界幸福报告》是可持续发展解决方案网络的年度报告，该报告使用盖洛普世界民意调查的调查结果研究了150多个国家/地区的生活质量。报告的重点是幸福的社交环境。在本项目中，我将使用世界幸福报告中的数据来探索亚洲22个国家或地区，并通过查看每个国家的阶梯得分，社会支持，健康的期望寿命，自由选择生活，慷慨，对腐败的看法以及人均GDP，来探索亚洲22个国家的相似和不同之处。我将使用两种聚类方法，即k均值和层次聚类，以及轮廓分析来验......

原创 2021-11-11 22:29:24 · 1508 阅读 · 0 评论
R语言贝叶斯广义线性混合效应（多层次/水平/嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据

原文链接：http://tecdat.cn/?p=24203原文出处：拓端数据部落公众号本教程使用R介绍了具有非信息先验的贝叶斯 GLM（广义线性模型）。当前教程特别关注贝叶斯逻辑回归在二元结果和计数/比例结果场景中的使用，以及模型评估的相应方法。使用教育数据示例。此外，本教程简要演示了贝叶斯 GLM 模型的多层次扩展。本教程遵循以下结构：1. 准备工作；2.GLM介绍；3. 教育数据；4. 数据准备；5.贝叶斯逻辑回归；6.贝叶斯二项Logistic回归；7. ....

原创 2021-11-12 23:41:43 · 3328 阅读 · 1 评论
MATLAB用GARCH模型对股票市场收益率时间序列波动的拟合与预测

原文链接：http://tecdat.cn/?p=24211原文出处：拓端数据部落公众号描述使用garch指定一个单变量GARCH（广义自回归条件异方差）模型。garch模型的关键参数包括： GARCH 多项式，由滞后条件方差组成。阶数用P表示。 ARCH多项式，由滞后平方组成。阶数用Q表示。 P和Q分别是 GARCH 和 ARCH 多项式中的最大非零滞后。其他模型参数包括平均模型偏移、条件方差模型常数和分布。所有系数都是未知（NaN值）和可估.........

原创 2021-11-15 21:23:20 · 5389 阅读 · 0 评论
Python集成机器学习：用AdaBoost、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

原文链接：http://tecdat.cn/?p=24231原文出处：拓端数据部落公众号Boosting 是一类集成机器学习算法，涉及结合许多弱学习器的预测。弱学习器是一个非常简单的模型，尽管在数据集上有一些技巧。在开发实用算法之前很久，Boosting 就是一个理论概念，而 AdaBoost（自适应提升）算法是该想法的第一个成功方法。AdaBoost算法包括使用非常短的（一级）决策树作为弱学习者，依次添加到集合中。每一个后续的模型都试图纠正它之前的模型在序列中做出的预测。这是通过对..

原创 2021-11-16 19:08:46 · 2952 阅读 · 0 评论
Python用户流失数据挖掘：建立逻辑回归、XGboost、随机森林、决策树、支持向量机、朴素贝叶斯模型和Kmeans用户画像

1 概述1.1 项目背景：在今天产品高度同质化的品牌营销阶段，企业与企业之间的竞争集中地体现在对客户的争夺上。“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中，往往会忽视或无暇顾及已有客户的流失情况，结果就导致出现这样一种窘况：一边是新客户在源源不断地增加，而另一方面是辛辛苦苦找来的客户却在悄然无声地流失。因此对老用户的流失进行数据分析从而挖掘出重要信息帮助企业决策者采取措施来减少用户流失的事情至关重要，迫在眉睫。1.2 目的：深入了解用户画

原创 2021-11-17 15:32:37 · 2410 阅读 · 1 评论
Matlab创建向量自回归（VAR）模型分析消费者价格指数 (CPI) 和失业率时间序列

原文链接：http://tecdat.cn/?p=24365原文出处：拓端数据部落公众号描述var对象指定了p阶平稳的多变量向量自回归模型（VAR(p)）模型的函数形式并存储了参数值。varm对象的关键组成部分包括时间序列的数量和多元自回归多项式 ( p )的阶数，因为它们完全指定了模型结构。其他模型组件包括将相同的外生预测变量与每个序列相关联的回归成分，以及常数和时间趋势项。例子创建和修改默认模型创建一个由一个序列组成的零阶 VAR 模型。M....

原创 2021-11-19 12:14:00 · 3316 阅读 · 0 评论
R语言梯度提升机 GBM、支持向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比较可视化分析声纳数据

原文链接：http://tecdat.cn/?p=24354原文出处：拓端数据部落公众号本文介绍简化模型构建和评估过程。caret包的train函数可用于使用重采样评估模型调整参数对性能的影响在这些参数中选择“最佳”模型从训练集估计模型性能首先，必须选择特定的模型。调整模型的第一步是选择一组要评估的参数。例如，如果拟合偏最小二乘 (PLS) 模型，则必须指定要评估的 PLS 组件的数量。一旦定义了模型和调整参数值，还应指定重采样的类型。目前，k折交叉验证....

原创 2021-11-19 12:22:44 · 1344 阅读 · 0 评论
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类：训练与结果评估可视化

原文链接：http://tecdat.cn/?p=24386原文出处：拓端数据部落公众号本文演示了训练一个简单的卷积神经网络 (CNN) 来对 CIFAR 图像进行分类。由于本教程使用 Keras Sequential API，因此创建和训练我们的模型只需几行代码。设置library(keras)下载并准备 CIFAR10 数据集CIFAR10 数据集包含 10 个类别的 60,000 张彩色图像，每个类别有 6,000 张图像。数据集分为 50,000 张训...

原创 2021-11-21 22:09:10 · 2436 阅读 · 0 评论
R语言GARCH建模常用软件包比较、拟合标准普尔SP 500指数波动率时间序列和预测可视化

原文链接：http://tecdat.cn/?p=24441原文出处：拓端数据部落公众号我们研究波动聚集，以及使用单变量 GARCH(1,1) 模型对其进行建模。波动聚集波动聚集——存在相对平稳时期和高波动时期的现象——是市场数据的一个看似普遍的属性。对此没有普遍接受的解释。GARCH（广义自回归条件异方差）模型波动聚集。图 1 是波动率的 garch 模型的示例。图 1：根据 garch(1,1) 模型估计的 2011 年底之前的标准普尔 500 指数波动率显...

原创 2021-11-26 12:02:38 · 3849 阅读 · 0 评论
R语言RStan MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

原文链接：http://tecdat.cn/?p=24456原文出处：拓端数据部落公众号如果你正在进行统计分析：想要加一些先验信息，最终你想要的是预测。所以你决定使用贝叶斯。但是，你没有共轭先验。你可能会花费很长时间编写 Metropolis-Hastings 代码，优化接受率和提议分布，或者你可以使用 RStan。Hamiltonian Monte Carlo（HMC）HMC 是一种为 MH 算法生成提议分布的方法，该提议分布被接受的概率很高。具体算法过程请查看参考文献...

原创 2021-11-26 19:52:59 · 946 阅读 · 0 评论
【数据分享】某地区1959~2019年60年降雨量时间序列数据

原文链接：http://tecdat.cn/?p=23544数据简介每年的降雨量数据可能是相当不稳定的。与温度不同，温度通常在四季中表现出明显的趋势，而雨量作为一个时间序列可能是相当不稳定的。夏季的降雨量与冬季的降雨量一样多是很常见的。本数据为某地区1959年11月到2019年12月的降雨量数据（查看文末了解数据获取方式)。数据详情数据格式csv字段年月降雨量大小8.95kb样本量722数据浏览以前6行数据为例，我们来.

原创 2021-12-02 17:56:21 · 2106 阅读 · 2 评论
【数据分享】糖尿病患者研究数据集

原文链接：http://tecdat.cn/?p=23848数据简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。（查看文末了解获取方式)数据详情数据格式csv字段怀孕次数

原创 2021-12-02 17:59:36 · 2726 阅读 · 3 评论
【数据分享】学生受欢迎程度评价数据集

原文链接：http://tecdat.cn/?p=10809数据简介受欢迎程度（简称：流行度）数据集由来自不同班级的学生组成，并且由于每个学生都属于一个唯一的班级，因此它是一个嵌套设计。因变量是“流行度”，它是一个学生自评的受欢迎程度，范围为0-10。预测指标包括学生级别的性别（二分变量）和Extrav（连续的自我评价的外向得分），以及班级的Texp（年份为单位的老师经验，是连续的）。数据详情数据格式sav字段学生id班级id外向程度学生性别教师

原创 2021-12-02 18:00:26 · 668 阅读 · 3 评论
Matlab用BUGS马尔可夫区制转换Markov switching随机波动率SV模型、序列蒙特卡罗SMC、Metropolis Hastings采样分析时间序列数据

原文链接：http://tecdat.cn/?p=24498原文出处：拓端数据部落公众号在这个例子中，我们考虑马尔可夫转换随机波动率模型。统计模型让是因变量和未观察到的对数波动率. 随机波动率模型定义如下区制变量遵循具有转移概率的二态马尔可夫过程表示均值的正态分布和方差.BUGS语言统计模型文件“ssv.bug”的内容：file = 'ssv.bug'; % BUGS模型文件名model{ x[1] ~ dnor..............

原创 2021-12-02 18:12:49 · 600 阅读 · 0 评论
【数据分享】错颌畸形生长患者治疗数据集

原文链接：http://tecdat.cn/?p=22956原文出处：拓端数据部落公众号数据简介受第三类错牙合畸形影响的患者（以下牙弓突出为特征），其骨骼不平衡在生命早期就产生，在青春期和骨骼成熟前会变得更加明显。在单个III类患者中早期预测治疗的成功或失败，使其更容易矫正，但仅从少量的形态决定因素中预测是很难做到的。原因是III类错颌畸形很少是单一颅面部件异常的结果，所以单个的临床和放射学测量值可能不如测量值本身的相互作用具有指示性。我们将使用的数据集包含143名患者（查.

原创 2021-12-04 19:44:47 · 298 阅读 · 0 评论
Python配对交易策略Pairs Trading统计套利量化交易分析股票市场

原文链接：http://tecdat.cn/?p=24814原文出处：拓端数据部落公众号说到在股票市场上赚钱，有无数种不同的赚钱方式。似乎在金融界，无论你走到哪里，人们都在告诉你应该学习 Python。毕竟，Python 是一种流行的编程语言，可用于所有类型的领域，包括数据科学。有大量软件包可以帮助您实现目标，许多公司使用 Python 来开发与金融界相关的以数据为中心的应用程序和科学计算。最重要的是，Python 可以帮助我们利用许多不同的交易策略，这些策略（没有它）将很难用手或电子表格进

原创 2021-12-23 12:38:52 · 2056 阅读 · 0 评论
R语言估计获胜概率：模拟分析学生多项选择考试通过概率可视化

原文链接：http://tecdat.cn/?p=24852原文出处：拓端数据部落公众号“获胜概率”的实时计算（或估计）很困难。我们经常在足球比赛中，在选举中看到这种情况。考虑经典的多项选择考试。在每个问题之后，想象您尝试计算学生通过考试的概率。在这里考虑我们有 50 个问题的情况。学生在答对 25 个以上时通过。为了模拟，我假设学生在每个问题上只掷硬币，我有 n 个学生，50 个问题M=matrix令 Xi,j 表示学生 i在问题 j 的分数。让 Si,j 表示累积分.

原创 2021-12-26 21:37:18 · 522 阅读 · 0 评论
R语言生态学模拟对广义线性混合模型GLMM进行功率（功效、效能、效力）分析power analysis环境监测数据

原文链接：http://tecdat.cn/?p=24861原文出处：拓端数据部落公众号概括r 语言允许用户计算 lme 4 包中广义线性混合模型的功效。功率计算基于蒙特卡罗模拟。它包括用于 (i) 对给定模型和设计进行功效分析的工具；(ii) 计算功效曲线以评估功效和样本量之间的权衡。本文提供了一个教程，使用具有混合效果的计数数据的简单示例（具有代表环境监测数据的结构）。介绍假设检验的功效定义为假设原假设为假，检验拒绝原假设的概率。换句话说，如果一个效应是真实的，..

原创 2021-12-27 22:46:35 · 1760 阅读 · 0 评论
Python支持向量回归SVR拟合、预测回归数据和可视化准确性检查实例

原文链接：http://tecdat.cn/?p=24875原文出处：拓端数据部落公众号支持向量回归（SVR）是一种回归算法，它应用支持向量机（SVM）的类似技术进行回归分析。正如我们所知，回归数据包含连续的实数。为了拟合这种类型的数据，SVR模型在考虑到模型的复杂性和错误率的情况下，用一个叫做ε管（epsilon-tube，ε表示管子的宽度）的给定余量来接近最佳值。在本教程中，我们将通过在 Python 中使用 SVR ，简要了解如何使用 SVR 方法拟合和预测回归数据。教程涵盖：..

原创 2021-12-28 22:30:29 · 4536 阅读 · 1 评论
电商平台数据解锁网红零食销量密码

你知道“巨型猪饲料”“单身狗粮”是什么吗？这不是给动物吃的，也许你或多或少听说过，这些在网上引起巨大反响的零食，完全激起了大家的购买欲望。要点提示与传统食品相比，这种购物模式不需要消费者亲自到商店或市场去挑选商品，而是可以直接通过网络媒体完成，具有品种丰富、跨区域、价格优惠等优点。大数据"对于今天来说可能已经不再是一个新词，但数据如何在营销中发挥更深远的作用，一直是很多营销人思考的问题。真正在营销中玩转数据的新方式，应该是能够触及营销的核心问题--如何从数据中找到深...

原创 2021-12-31 16:22:48 · 1339 阅读 · 0 评论
R语言GGPLOT2绘制圆环图雷达图/星形图/极坐标图/径向图Polar Chart可视化分析汽车性能数据

原文链接：http://tecdat.cn/?p=24896原文出处：拓端数据部落公众号漂亮的圆形图。我不确定对数据分析师本身是否有额外的好处，但如果能吸引决策者的注意，那对我来说就是额外的价值。然而，用coord_polar()或偶尔发现的ggplot2中的coord_radar()构建它们可能很难。我发现的两个主要问题是，极坐标的变化会使你的路径弯曲成圆形，而且雷达无法与geom_bin结合使用来填充背景。这就是为什么我通常在笛卡尔坐标系统中使用。更像是一种.

原创 2022-01-01 11:26:30 · 2363 阅读 · 0 评论