大数据部落

python

关注

文章平均质量分 82

关注数：文章数：136 文章阅读量：410303 文章收藏量：3181

作者: 拓端研究室

这个作者很懒，什么都没留下…

展开

Python在线零售数据关联规则挖掘Apriori算法数据可视化

原文链接：http://tecdat.cn/?p=23955关联规则学习在机器学习中用于发现变量之间的有趣关系。Apriori算法是一种流行的关联规则挖掘和频繁项集提取算法，在关联规则学习中有应用。它旨在对包含交易的数据库进行操作，例如商店客户的购买（购物篮分析）。除了购物篮分析之外，该算法还可以应用于其他问题。例如，在网络用户导航领域，我们可以搜索诸如访问过网页A和网页B的客户也访问过网页C的规则。Python sklearn 库没有 Apriori 算法，其中 Python 库M......

原创 2021-10-12 17:55:18 · 1932 阅读 · 0 评论
Python面板时间序列数据预测：格兰杰因果关系检验Granger causality test药品销售实例与可视化

原文链接：http://tecdat.cn/?p=23940原文出处：拓端数据部落公众号时间序列是以固定时间区间记录的观察序列。本指南带你完成在Python中分析一个给定的时间序列的特征的过程。内容什么是时间序列？如何在 Python 中导入时间序列？什么是面板数据？时间序列的可视化时间序列中的模式加法和乘法的时间序列如何将一个时间序列分解成其组成部分？平稳的和非平稳的时间序列如何使一个时间序列成为平稳的？如何测试平稳性？白噪声和平稳...

原创 2021-10-10 21:16:31 · 5241 阅读 · 4 评论
python用支持向量机回归(SVR)模型分析用电量预测电力消费

原文链接：http://tecdat.cn/?p=23921原文出处：拓端数据部落公众号本文描述了训练支持向量回归模型的过程，该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量。关于支持向量机的快速说明支持向量机是机器学习的一种形式，可用于分类或回归。尽可能简单地说，支持向量机找到了划分两组数据的最佳直线或平面，或者在回归的情况下，找到了在容差范围内描述趋势的最佳路径。对于分类，该算法最大限度地减少了对数据进行错误分..

原创 2021-09-29 21:42:53 · 4655 阅读 · 1 评论
Python 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化

原文链接：http://tecdat.cn/?p=24191原文出处：拓端数据部落公众号在这篇文章中，我将集中讨论一个给定一个短数据序列的推断概率的例子。我将首先介绍如何用贝叶斯方法进行期望推理的理论，然后在 Python 中实现该理论，以便我们能够处理这些想法。为了使文章更容易理解，我将只考虑一小组候选概率。我能够最小化推理的数学难度，同时仍然能够得到非常好的结果，包括先验、似然和后验图。具体来说，我将考虑以下情况：计算机程序输出一个由 1和 0组成的随机字符串。例如，一...

原创 2021-11-10 22:29:47 · 2377 阅读 · 0 评论
Python集成机器学习：用AdaBoost、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

原文链接：http://tecdat.cn/?p=24231原文出处：拓端数据部落公众号Boosting 是一类集成机器学习算法，涉及结合许多弱学习器的预测。弱学习器是一个非常简单的模型，尽管在数据集上有一些技巧。在开发实用算法之前很久，Boosting 就是一个理论概念，而 AdaBoost（自适应提升）算法是该想法的第一个成功方法。AdaBoost算法包括使用非常短的（一级）决策树作为弱学习者，依次添加到集合中。每一个后续的模型都试图纠正它之前的模型在序列中做出的预测。这是通过对..

原创 2021-11-16 19:08:46 · 2937 阅读 · 0 评论
Python用户流失数据挖掘：建立逻辑回归、XGboost、随机森林、决策树、支持向量机、朴素贝叶斯模型和Kmeans用户画像

1 概述1.1 项目背景：在今天产品高度同质化的品牌营销阶段，企业与企业之间的竞争集中地体现在对客户的争夺上。“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中，往往会忽视或无暇顾及已有客户的流失情况，结果就导致出现这样一种窘况：一边是新客户在源源不断地增加，而另一方面是辛辛苦苦找来的客户却在悄然无声地流失。因此对老用户的流失进行数据分析从而挖掘出重要信息帮助企业决策者采取措施来减少用户流失的事情至关重要，迫在眉睫。1.2 目的：深入了解用户画

原创 2021-11-17 15:32:37 · 2391 阅读 · 1 评论
Python配对交易策略Pairs Trading统计套利量化交易分析股票市场

原文链接：http://tecdat.cn/?p=24814原文出处：拓端数据部落公众号说到在股票市场上赚钱，有无数种不同的赚钱方式。似乎在金融界，无论你走到哪里，人们都在告诉你应该学习 Python。毕竟，Python 是一种流行的编程语言，可用于所有类型的领域，包括数据科学。有大量软件包可以帮助您实现目标，许多公司使用 Python 来开发与金融界相关的以数据为中心的应用程序和科学计算。最重要的是，Python 可以帮助我们利用许多不同的交易策略，这些策略（没有它）将很难用手或电子表格进

原创 2021-12-23 12:38:52 · 2040 阅读 · 0 评论
Python实现谱聚类Spectral Clustering算法和改变簇数结果可视化比较

原文链接：http://tecdat.cn/?p=24842原文出处：拓端数据部落公众号谱聚类是一种将数据的相似矩阵的谱应用于降维的技术。它是有用且易于实现的聚类方法。Scikit-learn API 提供了谱聚类来实现 Python 中的谱聚类方法。谱聚类将聚类应用于归一化拉普拉斯算子的投影。在本教程中，我们将简要了解如何在 Python 中使用谱聚类对数据进行聚类和可视化。教程涵盖：准备数据使用谱聚类和可视化进行聚类源代码我们将首先导入所需的库和函数....

原创 2021-12-24 11:27:34 · 1116 阅读 · 0 评论
Python支持向量回归SVR拟合、预测回归数据和可视化准确性检查实例

原文链接：http://tecdat.cn/?p=24875原文出处：拓端数据部落公众号支持向量回归（SVR）是一种回归算法，它应用支持向量机（SVM）的类似技术进行回归分析。正如我们所知，回归数据包含连续的实数。为了拟合这种类型的数据，SVR模型在考虑到模型的复杂性和错误率的情况下，用一个叫做ε管（epsilon-tube，ε表示管子的宽度）的给定余量来接近最佳值。在本教程中，我们将通过在 Python 中使用 SVR ，简要了解如何使用 SVR 方法拟合和预测回归数据。教程涵盖：..

原创 2021-12-28 22:30:29 · 4505 阅读 · 1 评论
Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

原文链接：http://tecdat.cn/?p=24940原文出处：拓端数据部落公众号变量选择是高维统计建模的重要组成部分。许多流行的变量选择方法，例如 LASSO，都存在偏差。带平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题，同时还保留了稀疏性的连续惩罚。惩罚最小二乘法一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式.

原创 2022-01-05 18:35:00 · 3626 阅读 · 0 评论
Python贝叶斯推断Metropolis-Hastings（M-H）MCMC采样算法的实现

原文链接：http://tecdat.cn/?p=25376原文出处：拓端数据部落公众号Metropolis-Hastings 算法对概率分布进行采样以产生一组与原始分布成比例的轨迹。首先，目标是什么？MCMC的目标是从某个概率分布中抽取样本，而不需要知道它在任何一点的确切概率。MCMC实现这一目标的方式是在该分布上 "徘徊"，使在每个地点花费的时间与分布的概率成正比。如果 "徘徊 "过程设置正确，你可以确保这种比例关系（花费的时间和分布的概率之间）得以实现为了可视化算法的工作原理，

原创 2022-02-09 19:36:22 · 1011 阅读 · 0 评论
python深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列

原文链接：http://tecdat.cn/?p=25410原文出处：拓端数据部落公众号通过训练具有小中心层的多层神经网络重构高维输入向量，可以将高维数据转换为低维代码。这种神经网络被命名为自编码器Autoencoder。自编码器是非线性降维技术用于特征的无监督学习，它们可以学习比主成分分析效果更好的低维代码，作为降低数据维数的工具。异常心跳检测如果提供了足够的类似于某种底层模式的训练数据，我们可以训练网络来学习数据中的模式。异常测试点是与典型数据模式不匹配的点。自编码器在重建.

原创 2022-02-12 10:50:31 · 1562 阅读 · 0 评论
Python用Markowitz马克维兹有效边界构建最优投资组合可视化分析四只股票

原文链接：http://tecdat.cn/?p=25749原文出处：拓端数据部落公众号在这篇文章中，我想介绍现代投资组合理论 (MPT)、有效边界以及它对投资组合构建的一些影响。我对如何设计和构建投资组合非常感兴趣。尽管现代投资组合理论有其局限性，但它仍然很好地介绍了投资组合构建和投资组合理论。第一部分将简要回顾理解MPT及其含义所需的一些数学和概念。第二部分将讨论MPT和有效边界。第三部分将深入探讨使用真实市场数据的 Python 实现。我将.........

原创 2022-03-07 22:29:45 · 2592 阅读 · 0 评论
R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

原文链接：http://tecdat.cn/?p=25880原文出处：拓端数据部落公众号介绍本文描述了一个模型，该模型解释了交易的聚集到达，并展示了如何将其应用于比特币交易数据。这是很有趣的，原因很多。例如，对于交易来说，能够预测在短期内是否有更多的买入或卖出是非常有用的。另一方面，这样的模型可能有助于理解基本新闻驱动价格与机器人交易员对价格变化的反应之间的区别。订单到达的自激性和集群性交易不会以均匀的间隔到达，但通常会在时间上聚集在一起。类似地，相同的交易标志往往会..

原创 2022-03-16 17:34:51 · 10325 阅读 · 2 评论
Python信贷风控模型：梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和模型优化

原文链接：http://tecdat.cn/?p=26184原文出处：拓端数据部落公众号在此数据集中，我们必须预测信贷的违约支付，并找出哪些变量是违约支付的最强预测因子？以及不同人口统计学变量的类别，拖欠还款的概率如何变化？有25个变量：1. ID：每个客户的ID2. LIMIT_BAL：金额3. SEX：性别（1 =男，2 =女）4.教育程度：（1 =研究生，2 =本科，3 =高中，4 =其他，5 =未知）5.婚姻：婚姻状况（1 =已婚，2 =单身，3 =其他）6.年龄：.....

原创 2022-04-12 21:35:02 · 1276 阅读 · 0 评论
Python用Keras的LSTM神经网络进行时间序列预测天然气价格例子

一个简单的编码器-解码器LSTM神经网络应用于时间序列预测问题：预测天然气价格，预测范围为 10 天。“进入”时间步长也设置为 10 天。) 只需要 10 天来推断接下来的 10 天。可以使用 10 天的历史数据集以在线学习的方式重新训练网络。数据集是天然气价格，具有以下功能：日期（从 1997 年到 2020 年）- 为每天数据以元计的天然气价格读取数据并将日期作为索引处理# 固定日期时间并设置为索引dftet.index = pd.DatetimeIndex# ..

原创 2022-05-05 10:45:38 · 1234 阅读 · 0 评论
Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

原文链接：http://tecdat.cn/?p=26562该项目包括：自 2000 年 1 月以来的股票价格数据。我们使用的是 Microsoft 股票。将时间序列数据转换为分类问题。使用 TensorFlow 的 LSTM 模型由 MSE 衡量的预测准确性GPU 设置（如果可用）gpus = tf.config.experimental.li读取数据集有几种方法可以获取股市数据。以下数据集是使用 R BatchGetSymbols 生成的。..

原创 2022-05-07 11:50:59 · 1682 阅读 · 0 评论
Python用Apriori 算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

Apriori 算法是一个相当新的算法，由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集挖掘的算法，允许公司理解和组织向上销售和交叉销售活动。最强大的应用程序之一是我们在亚马逊上在线购物时看到的推荐系统 - 以及当今几乎所有电子商务网站上都存在的各种其他版本。这是为了帮助理解一个非常简单的数据集，其中包含单个国际标准书号 (ISBN)，它是一本书的唯一国际出版商标识符号。每行代表购买了所列书籍的唯一客户。目标是了解基本购买行为，向客户推荐的其他书籍是什么——这样它可以提高公

原创 2022-06-01 14:22:09 · 761 阅读 · 1 评论
Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测

该数据由Hopkins 大学根据世界各国提供的新病例数据提供。获取时间序列数据探索数据此表中的数据以累积的形式呈现，为了找出每天的新病例，我们需要减去这些值这些数据是根据国家和地区报告新病例的数据，但我们只想预测国家的新病例，因此我们使用 groupby 根据国家对它们进行分组执行 groupby 以根据一个国家的新病例来汇总数据，而不是根据地区我们可以对每个国家进行预测，也可以对所有国家进行预测，这次我们对所有国家进行预测

原创 2022-06-02 10:28:56 · 865 阅读 · 2 评论
Python在Scikit-Learn可视化随机森林中的决策树分析房价数据

随机森林是决策树的集合。可以通过几种不同的方式轻松地可视化单个决策树. 在这篇文章中，我将向您展示如何从随机森林中可视化决策树。首先让我们在波士顿数据集上训练随机森林模型（这是房价回归任务）。加载数据并训练随机森林。让我们将森林中的树数设置为 100（这是默认值）：决策树存储在模型中的属性中。我们可以检查列表的长度，它应该等于值。我们可以从随机森林中绘制第一棵决策树（列表中有索引）：你明白什么吗？这棵树太大，无法在一个图中将其可视化并使其可读。让

原创 2022-06-06 10:54:16 · 835 阅读 · 0 评论
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

使用 ML 进行提升建模和因果推理。Python 包提供了一套使用基于最近研究的机器学习算法的提升建模和因果推理方法。允许用户根据实验或观察数据估计条件平均处理效果 (CATE) 或个体处理效果 (ITE)。本质上，它估计了干预对具有观察特征的用户的结果的因果影响，而对模型形式没有强烈的假设。典型用例包括广告活动定位优化：在广告活动中提高投资回报率的一个重要手段是将广告定位到在给定 KPI（如参与度或销售量）中会有良好反应的客户群。通过根据 A/B 实验或历史观察数据在个人层面估计广告曝光的 KP

原创 2022-06-07 10:02:11 · 603 阅读 · 0 评论
Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

时序数据的聚类方法该算法按照以下流程执行。数据集准备聚类结果的可视化什么是肘法...

原创 2022-06-08 12:18:24 · 1640 阅读 · 0 评论
Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法

我们将研究两种对分布进行抽样的方法：拒绝抽样和使用 Metropolis Hastings 算法的马尔可夫链蒙特卡洛方法 (MCMC)。像往常一样，我将提供直观的解释、理论和一些带有代码的示例。希望这将有助于解释一个经常以复杂方式呈现的相对直截了当的主题。在我们进入主题之前，让我们将马尔可夫链蒙特卡罗（MCMC）这个术语分解为它的基本组成部分：蒙特卡罗方法和马尔可夫链。了解这两者后，MCMC 就更有意义了。Monte Carlo methods 是使用随机抽样来计算一些数值结果的一大类算法的总称。当很难甚至

原创 2022-06-20 11:21:32 · 1388 阅读 · 1 评论
R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

数据包含有关葡萄牙“Vinho Verde”葡萄酒的信息。该数据集有1599个观测值和12个变量，分别是固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精和质量。固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐和酒精是自变量并且是连续的。质量是因变量，根据 0 到 10 的分数来衡量。总共有 855 款葡萄酒被归类为“好”品质，744 款葡萄酒被归类为“差”品质。固定酸度、挥发性酸度、柠檬酸、氯化物、游离二氧化硫、总二氧化

原创 2022-06-27 14:24:06 · 1538 阅读 · 1 评论
基于简化的评分卡、Smote采样和随机森林的信贷违约预测

此处的创新点在于简化评分卡模型思想的构建，我们简化的部分在于不去生成评分卡，而是利用评分卡模型中对特征进行WOE变换的一个核心思想，将它和逻辑回归模型相结合，从而得到一个简化评分卡模型。因为我们使用的算法为基于逻辑回归的评分卡和随机森林模型，特征之间的线性相关性会对模型建立的环节有所影响，所以利用热力图展示一下特征之间的相关性。特征处理的方式有很多，我们选择WOE变换，这是因为WOE变换后的变量和逻辑回归线性表达式成单调关系，这样更加好的衡量组与组之间的数量联系。越强，但对计算性能也有很高的要求。...

原创 2022-07-27 16:54:06 · 453 阅读 · 0 评论
Python的分子模拟动态促进DF Theory理论对二进制硬盘系统的适用性

流体力学界对过冷液体（supercooledliquid）的认知还不完善，我的项目利用Python的分子模拟，通过搭建一个binaryharddisksystem并对系统进行压缩模拟来验证DynamicFacilitationTheory是否适用于我搭建的分子模型。兴趣技能点广泛，对数据分析，品牌营销，客户策略，以及industry-related科研感兴趣，精通MicrosoftOffice，Python，Matlab，Mathematica等学术软件，尤其Python数据分析经验充分。.........

原创 2022-08-01 13:58:52 · 218 阅读 · 0 评论
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别

除此之外，还需要将正负样本各自的照片像素设为相同的值，正样本数据集的像素最佳设为20x20，这样的模型训练精度更高，而负样本数据集像素则应不低于50x50，如此可以加快模型训练的速度，此处我们将负样本的数据集像素调节为80 x80。因为识别有一定的误差，所以需要对裁剪后的照片进行筛选，将极少数对齐不准确的照片手动删除，并将数据集的照片进行重命名，便于后续数据集路径的创建。最后得到戴口罩的照片1010张，作为该模型的正样本，未戴口罩的照片3030张，作为该模型的负样本，正负样本的比例为1:3。........

原创 2022-08-03 13:35:30 · 1672 阅读 · 0 评论
Python用RNN神经网络LSTM优化EMD经验模态分解交易策略的股票价格MACD分析

预测股票价格，并在合适的时间产生交易策略实现收益，一直是一个热门的问题，到现在为止也提出了很多预测方法。1.利用 LSTM 预测中国平安的股票价格情况：从 loss 图中可以看出，网络效果较好，训练集和测试集的 loss 都是下降后趋于稳定，不存在过拟合现象。考虑到最终模型会预测将来的某时间段的销量，为了更真实的测试模型效果，以时间来切分训练集和测试集。EMD分解在处理非平稳及非线性数据上，具有非常明显的优势，适合于分析非线性、非平稳信号序列，具有很高的信噪比。可以看出胜率在６０％左右。...

原创 2022-08-15 18:05:21 · 846 阅读 · 1 评论
python可视化探索新冠病毒与失业率是否存在线性关系

对于政府来说，分析确定线性关系是对未来走向进行评估预测的重要基石，但是使用python进行提取数据进行整合并且使用可视化清晰的呈现线性关系并不是一件容易的事情。我利用折线图将费城失业率进行可视化处理，同时利用散点图对新馆病毒案例及检测数进行可视化处理并将检测结果为阳性的案例进行进一步提取（同时借助tableau对新馆病毒进行更加清晰的可视化处理），新冠病毒的病例及检测数与失业率并没有明显的线性关系，但在美国疫情爆发的初期，新冠病毒的爆发的确对经济及就业市场造成了巨大的影响。基于政府提供的线上数据，

原创 2022-09-13 12:57:38 · 451 阅读 · 0 评论
数据代码分享|Python用NLP自然语言处理LSTM神经网络Twitter推特灾难文本数据、词云可视化与SVM，KNN，多层感知器，朴素贝叶斯，随机森林，GBDT对比

Twitter是一家美国社交网络及微博客服务的网站，致力于服务公众对话。迄今为止，Twitter的可货币化日活跃用户达1.86亿。与此同时，Twitter也已成为突发紧急情况时人们的重要沟通渠道。由于智能手机无处不在，人们可以随时随地发布他们正在实时观察的紧急情况。因此，越来越多的救灾组织和新闻机构对通过程序方式监视Twitter产生了兴趣。但是，我们并不清楚一个用户在推特上发布的推文是否是真实的正在发生的灾难。举个例子，用户发送了“从正面看昨晚的天空，好像在燃烧一样。

原创 2022-09-26 12:41:20 · 720 阅读 · 0 评论
Python使用神经网络进行简单文本分类

原文链接：http://tecdat.cn/?p=8613深度学习无处不在。在本文中，我们将使用Keras进行文本分类。准备数据集出于演示目的，我们将使用20个新闻组数据集。数据分为20个类别，我们的工作是预测这些类别。如下所示：通常，对于深度学习，我们将训练和测试数据分开。导入所需的软件包......

原创 2019-11-15 16:18:52 · 1818 阅读 · 0 评论
Python风险价值计算投资组合VaR（Value at Risk ）、期望损失ES（Expected Shortfall）

原文链接：http://tecdat.cn/?p=22788Python计算获得多资产投资组合的风险度量。关键概念随着价格的变动，投资经理所持有的市场价值也会发生变化。后者就是所谓的市场风险，衡量它的最流行的方法之一是定义为风险价值。风险本身被看作是实际收益和期望收益之间的差异，两者可能不同。如果它们相等，投资被认为是无风险的。同时，它不能有违约风险，也不能有再投资风险。请注意，期望收益不是投资者认为他们将获得的收益，而是反映了所有经济情况下所有可能结果的平均值。风险价值（VaR）告诉.

原创 2021-06-16 17:30:34 · 5796 阅读 · 4 评论
拓端tecdat|Python中用Prophet模型对天气时间序列进行预测与异常检测

原文链接：http://tecdat.cn/?p=22673方法Prophet异常检测使用了Prophet时间序列预测。基本的Prophet模型是一个可分解的单变量时间序列模型，结合了趋势、季节性和节假日效应。该模型预测还包括一个围绕估计的趋势部分的不确定性区间。另外，完全的贝叶斯推断也可以以增加计算量为代价。然后，不确定性区间的上限和下限值可以作为每个时间点的离群点阈值。首先，计算从观测值到最近的不确定度边界（上限或下限）的距离。如果观察值在边界内，离群点得分等于负距离。因此，当观测值与模..

原创 2021-06-03 16:20:30 · 1781 阅读 · 1 评论
拓端tecdat|Python用时变马尔可夫区制转换（Markov regime switching）自回归模型分析经济时间序列

原文链接：http://tecdat.cn/?p=22617原文出处：拓端数据部落公众号本文提供了一个在统计模型中使用马可夫转换模型模型的例子，来复现Kim和Nelson（1999）中提出的一些结果。它应用了Hamilton（1989）的滤波器和Kim（1994）的平滑器。%matplotlib inlineimport numpy as npimport pandas as pdimport statsmodels.api as smfrom pandas_datarea.

原创 2021-05-28 17:33:43 · 2127 阅读 · 4 评论
拓端tecdat|Python随机波动率(SV)模型对标普500指数时间序列波动性预测

原文链接：http://tecdat.cn/?p=22546资产价格具有随时间变化的波动性（逐日收益率的方差）。在某些时期，收益率是高度变化的，而在其他时期则非常平稳。随机波动率模型用一个潜在的波动率变量来模拟这种情况，该变量被建模为随机过程。下面的模型与 No-U-Turn Sampler 论文中描述的模型相似，Hoffman (2011) p21。这里，r是每日收益率序列，s是潜在的对数波动率过程。建立模型首先，我们加载标普500指数的每日收益率。returns...

原创 2021-05-21 17:03:26 · 1395 阅读 · 4 评论
拓端tecdat|【视频】Python和R使用指数加权平均(EWMA)，ARIMA自回归移动平均模型预测时间序列

原文链接：http://tecdat.cn/?p=21773概述学习创建时间序列预测的步骤关注Dickey-Fuller检验和ARIMA（自回归移动平均）模型从理论上学习这些概念以及它们在python中的实现介绍时间序列（从现在起称为TS）被认为是数据科学领域中鲜为人知的技能之一。使用python创建时间序列预测我们使用以下步骤：时间序列是什么加载和处理时间序列如何检验时间序列的平稳性？如何使时间序列平稳？预测时间序列1.什么是时间序列?...

原创 2021-04-01 23:59:51 · 2160 阅读 · 0 评论
拓端tecdat：Python | ARIMA时间序列模型预测航空公司的乘客数量

时间序列被定义为一系列按时间顺序索引的数据点。时间顺序可以是每天，每月或每年。以下是一个时间序列示例，该示例说明了从1949年到1960年每月航空公司的乘客数量。时间序列预测时间序列预测是使用统计模型根据过去的结果预测时间序列的未来值的过程。一些示例预测未来的客户数量。解释销售中的季节性模式。检测异常事件并估计其影响的程度。估计新推出的产品对已售出产品数量的影响。时间序列的组成部分：代码：航空公司乘客的ETS分解数据集：# 导入所需的库....

原创 2021-03-03 13:24:51 · 2528 阅读 · 1 评论
拓端tecdat|Python使用GARCH，EGARCH，GJR-GARCH模型和蒙特卡洛模拟进行股价预测

原文链接：http://tecdat.cn/?p=20666预测股价已经受到了投资者，政府，企业和学者广泛的关注。然而，数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑战性的任务。在本文中，我将解释如何将GARCH，EGARCH和GJR-GARCH模型与Monte-Carlo模拟结合使用，以建立有效的预测模型。金融时间序列的峰度，波动率和杠杆效应特征证明了GARCH的合理性。时间序列的非线性特征用于检查布朗运动并研究时间演化模式。非线性预测和信号分析方法因其在特征提取和分类中.......

原创 2021-03-02 16:18:44 · 7251 阅读 · 6 评论
拓端tecdat|ARIMA模型预测CO2浓度时间序列-python实现

原文链接：http://tecdat.cn/?p=20424介绍时间序列为预测未来数据提供了方法。根据先前的值，时间序列可用于预测经济，天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法。在本教程中，我们将首先介绍和讨论自相关，平稳性和季节性的概念，然后继续应用最常用的时间序列预测方法之一，称为ARIMA。Python中可用的一种用于建模和预测时间序列的未来点的方法称为SARIMAX，它表示带有季节性回归的季节性自回归综合移动平均线。在这里，我们将主要关注ARIMA，....

原创 2021-02-22 15:09:22 · 947 阅读 · 2 评论
拓端tecdat|Python中的Lasso回归之最小角算法LARS

假设我们期望因变量由潜在协变量子集的线性组合确定。然后，LARS算法提供了一种方法，可用于估计要包含的变量及其系数。LARS解决方案没有给出矢量结果，而是由一条曲线组成，该曲线表示针对参数矢量L1范数的每个值的解决方案。该算法类似于逐步回归，但不是在每个步骤中都包含变量，而是在与每个变量的相关性与残差相关的方向上增加了估计的参数。优点：1.计算速度与逐步回归一样快。2.它会生成完整的分段线性求解路径，这在交叉验证或类似的模型调整尝试中很有用。3.如果两个变量与因变量几乎同等相关，则它们的系数.

原创 2021-02-20 14:06:56 · 759 阅读 · 0 评论