拓端研究室-CSDN博客

原创关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

本文数据采集于豆瓣读书网站，分析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点：有哪些书籍值得推荐？一般书籍的价格是多少？一本书的评分和评论数量之间是否存在某种关系？关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化，时长07:03截至爬取之日，热门书评数量实时增长，分别是：①：评分>=8.0且评论超过10w+的书籍； ②：只有评论超过10w+的书； ③：按书评数量排名TOP8；经过对比，我发现一些值得一读再读的名著总是在列表中，而且列表中的大部分书籍都是开卷即有益的好

2022-06-07 09:51:14 230

原创拓端tecdat荣获2022年度51CTO博主之星

相信技术，传递价值，这是51CTO每一个技术创作者的动力与信念，2022 年度，拓端tecdat 作为新锐的数据分析咨询公司，在51CTO平台上，不断的输出优质的技术文章，分享前沿创新技术，输出最佳生产实践，影响着每一位上进的开发者。喜获“2022年度51CTO博主之星”的荣誉对拓端tecdat来说是极大的鼓舞，我们会继续奋勇前行，在包括51CTO等在内的技术社区平台分享更多优质内容和技术干货，真正做数据分析技术的布道者，为更多开发者的成长进步贡献力量。此外还通过录制视频课程、撰写文档，为产品建立入门指南，

2022-06-06 16:26:36 115

原创 Python在Scikit-Learn可视化随机森林中的决策树分析房价数据

随机森林是决策树的集合。可以通过几种不同的方式轻松地可视化单个决策树. 在这篇文章中，我将向您展示如何从随机森林中可视化决策树。首先让我们在波士顿数据集上训练随机森林模型（这是房价回归任务）。加载数据并训练随机森林。让我们将森林中的树数设置为 100（这是默认值）：决策树存储在模型中的属性中。我们可以检查列表的长度，它应该等于值。我们可以从随机森林中绘制第一棵决策树（列表中有索引）：你明白什么吗？这棵树太大，无法在一个图中将其可视化并使其可读。让

2022-06-06 10:54:16 849

原创 Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测

该数据由Hopkins 大学根据世界各国提供的新病例数据提供。获取时间序列数据探索数据此表中的数据以累积的形式呈现，为了找出每天的新病例，我们需要减去这些值这些数据是根据国家和地区报告新病例的数据，但我们只想预测国家的新病例，因此我们使用 groupby 根据国家对它们进行分组执行 groupby 以根据一个国家的新病例来汇总数据，而不是根据地区我们可以对每个国家进行预测，也可以对所有国家进行预测，这次我们对所有国家进行预测

2022-06-02 10:28:56 884 2

原创 Python用Apriori 算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

Apriori 算法是一个相当新的算法，由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集挖掘的算法，允许公司理解和组织向上销售和交叉销售活动。最强大的应用程序之一是我们在亚马逊上在线购物时看到的推荐系统 - 以及当今几乎所有电子商务网站上都存在的各种其他版本。这是为了帮助理解一个非常简单的数据集，其中包含单个国际标准书号 (ISBN)，它是一本书的唯一国际出版商标识符号。每行代表购买了所列书籍的唯一客户。目标是了解基本购买行为，向客户推荐的其他书籍是什么——这样它可以提高公

2022-06-01 14:22:09 779 1

原创数据视角可视化分析豆瓣电影评分爬虫数据

原文链接：http://tecdat.cn/?p=26988原文出处：拓端数据部落公众号豆瓣已经成为国内影迷和影评人的聚集地。豆瓣评分已经成为评价中国电影的重要指标。豆瓣积累了大量的电影数据，为电影行业分析提供了重要资源。豆瓣电影被用来衡量国内外电影的发展。中国与其他国家对比汇总年电影总产量。一直在快速推进的电影产业在2017年出现转折，电影产量开始下滑。与现在相比，相差1500部左右。这种趋势一直持续。中国大陆的评分低于整体评分，然后我们选择电影数.

2022-05-31 17:59:15 639

原创 Python条件生存森林模型Conditional Survival Forest 预测客户流失交叉验证

简介客户流失/流失，是企业最重要的指标之一，因为获取新客户的成本通常高于保留现有客户的成本。事实上，根据一个贝恩公司研究，随着时间的推移，现有客户倾向于从公司购买更多产品，从而降低企业的运营成本，并可能将他们使用的产品推荐给其他人。例如，在金融服务领域，客户保留率每增加 5%，利润就会增加 25% 以上。通过使用生存分析，公司不仅可以预测客户是否可能停止开展业务，还可以预测该事件何时发生。数据集描述和概述团队想要使用的数据集包含以下功能：特征类别功能名称类型.

2022-05-30 13:26:51 464

原创【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享

原文链接：http://tecdat.cn/?p=22492降维技术之一是主成分分析 (PCA) 算法，该算法将可能相关变量的一组观察值转换为一组线性不相关变量。在本文中，我们将讨论如何通过使用 R编程语言使用主成分分析来减少数据维度分析葡萄酒数据（查看文末了解数据获取方式）。主成分分析PCA降维方法和R语言分析葡萄酒可视化实例主成分分析PCA降维方法和R语言分析葡萄酒可视化实例，时长04:30高维数据集的处理可能是一个复杂的问题，因为我们需要更高的计算资源，或者难以控制机器.

2022-05-29 11:57:01 527

原创 R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化

在进行交叉验证之前，很自然地说“我会预烧 50%（比如说）我的数据来训练一个模型，然后用剩下的来拟合模型”。例如，我们可以使用训练数据进行变量选择（例如，在逻辑回归中使用一些逐步过程），然后，一旦选择了变量，就将模型拟合到剩余的观察集上。一个自然的问题通常是“这真的重要吗？”。为了可视化这个问题，考虑我的（简单）数据集MYOCARDE=read.table( "saporta.csv", head=TRUE,sep=";")让我们生成 100 个训练样本（我们保留大约 50% 的观

2022-05-26 11:28:41 789

原创 R语言零膨胀泊松回归ZERO-INFLATED POISSON（ZIP）模型分析露营钓鱼数据实例估计IRR和OR

零膨胀泊松回归用于对超过零计数的计数数据进行建模。此外，理论表明，多余的零点是通过与计数值不同的过程生成的，并且可以独立地对多余的零点进行建模。因此， zip模型有两个部分，泊松计数模型和用于预测多余零点的 logit 模型。零膨胀泊松回归示例示例。州立野生动物生物学家想要模拟州立公园的渔民捕获了多少鱼。游客会被问到他们逗留了多长时间，团队中有多少人，团队中是否有儿童以及捕获了多少鱼。一些游客不钓鱼，但没有关于一个人是否钓鱼的数据。一些钓鱼的游客没有钓到任何鱼，因此数据中存在多余的零，因为..

2022-05-25 11:45:39 1494

原创 R语言用GARCH模型波动率建模和预测、回测风险价值 (VaR)分析股市收益率时间序列

原文链接：http://tecdat.cn/?p=26897风险价值 (VaR)风险价值 (VaR) 是金融风险管理中使用最广泛的市场风险度量，也被投资组合经理等从业者用来解释未来市场风险。VaR 可以定义为资产在给定时间段内以概率 θ 超过的市场价值损失。对于收益率 rt 的时间序列，VaRt将是这样的其中 It-1表示时间 t-1 的信息集。尽管 VaR 在提供资产组合下行风险的简单总结时具有吸引人的简单性，但没有单一的计算方法。1% 风险价值将价格转换为收益lib.

2022-05-24 11:21:40 4141

原创 R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

原文链接：http://tecdat.cn/?p=26868在本教程中，我们将学习覆盖决策树和随机森林。这些是可用于分类或回归的监督学习算法。下面的代码将加载本教程所需的包和数据集。library(tidyverse)# 电信客户流失率数据churn <- read_rds(chuata.rds))数据花点时间探索下面的这个数据集。此数据框中的一行代表一家电信公司的客户。每个客户都从该公司购买了电话和互联网服务。此数据中的因变量变量canceled指示....

2022-05-23 10:33:54 1653

原创【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享

原文链接：http://tecdat.cn/?p=22732原文出处：拓端数据部落公众号关联规则分析是一种揭示项目如何相互关联的技术。关联规则分析也称为购物篮分析。在这篇文章中，我将解释关联规则模型以及如何在R中提取关联规则。关联规则模型适用于交易数据（查看文末了解数据获取方式）。交易数据的一个例子可以是客户的购物历史。视频：R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化，时长07.

2022-05-20 18:02:52 542

原创 R语言几何布朗运动 GBM模拟股票价格优化建立期权定价概率加权收益曲线可视化

对于模拟股票价格，几何布朗运动 (GBM) 是事实上的首选模型。它有一些很好的属性，通常与股票价格一致，例如对数正态分布（因此向下限制为零），并且期望收益不取决于价格的大小。当然，GBM 只是一个模型，没有一个模型可以完美地代表现实。特别是，GBM 使用恒定波动率，这显然与现实不符。它也没有考虑跳跃，例如由新闻引起的跳跃。尽管有这些限制，GBM 仍然是对股票价格行为进行建模的有用起点。特别是，它非常有助于建立对各种金融概念的直觉——尤其是期权定价。通常，当我们对股票价格进行建模时，我们的..

2022-05-19 11:48:03 1041

原创 python用pystan贝叶斯IRT模型拟合Rasch模型分析学生考试问题数据

由于某大学学生人数过多，助教不足，因此有必要对期中考试给每个学生的题目数量施加五道题的限制。所有必须使用的问题必须来自大约 400 个预先批准的问题的测试库。 50% 的问题可以在期中使用。这项数据驱动研究的目标是找到应该从考试生成算法中排除的问题，以提供班级中最有意义的学生排名。数据分析import numpy as npimport pandas as pdimport pystanimport scipy.statsimport scipy.specialimport matplo

2022-05-18 11:37:42 756

原创【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

原文链接：http://tecdat.cn/?p=23305原文出处：拓端数据部落公众号什么是支持向量机 (SVM)？我们将从简单的理解 SVM 开始。【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例，时长07:24假设我们有两个标签类的图，如下图所示：你能决定分隔线是什么吗？你可能想出了这个：这条线将类完全分开。这就是 SVM 本质上所做的——简单的类分离。.

2022-05-17 19:09:54 2061

原创【视频】风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例

原文链接:http://tecdat.cn/?p=22862原文出处：拓端数据部落公众号什么是风险价值（VaR）？风险价值 (VaR) 是一种统计数据，用于量化公司、投资组合在特定时间范围内可能发生的财务损失程度。该指标最常被投资银行和商业银行用来确定其机构投资组合中潜在损失的程度和概率。视频：风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例，时长10:.

2022-05-17 18:48:02 629

原创 R语言用Keras长短期记忆LSTM神经网络分类分析问答文本数据

介绍本文是在 R 中使用 Keras 的简单介绍。软件包library(tidyverse) #导入、清理、可视化 library(keras) # 用keras进行深度学习library(data.table) # 快速读取csv数据导入让我们看一下数据tst %>% head()初步查看让我们考虑几个用户可能提出的“不真诚”问题的例子trn %>% filter(tart == 1) %>% sme_n(5)我可以

2022-05-17 10:08:41 1114 1

原创 R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列

在本笔记本中，我们向读者介绍了基本的随机波动率模型，并通过连续顺序重要性重采样讨论了它们的估计。我们使用收益率数据集来讨论 CSIR 在随机波动率模型估计中的实现和性能。第一个随机波动率模型令 yt 为时间 t的股票收益，σt 为其标准差。考虑以下离散时间随机波动率模型：zt∼N(0,1) 和 ηt∼N(0,τ2) ，τ>0 和 |φ1|<1 以确保波动率遵循平稳过程。直观地说，波动过程被建模为一个潜在过程，其中 log(σ2t) 遵循 AR(1) 过程。在下一个块中，我..

2022-05-16 11:48:45 574

原创【视频】从决策树到随机森林：R语言信用卡违约分析信贷数据实例|数据分享

原文链接：http://tecdat.cn/?p=23344原文出处：拓端数据部落公众号本文中我们介绍了决策树和随机森林的概念，并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析（查看文末了解数据获取方式）。决策树是由节点和分支组成的简单树状结构。根据每个节点的任何输入特征拆分数据，生成两个或多个分支作为输出。这个迭代过程增加了生成的分支的数量并对原始数据进行了分区。这种情况一直持续到生成一个节点，其中所有或几乎所有数据都属于同一类，并且不再可能进一步拆分或分支。视.

2022-05-16 11:22:55 1058 1

原创 R语言用主成分分析（PCA）PCR回归进行预测汽车购买信息可视化

在这个项目中，我讨论了如何使用主成分分析 (PCA) 进行简单的预测。出于说明目的，我们将对一个数据集进行分析，该数据集包含有关在 3 个不同价格组内进行的汽车购买信息以及影响其购买决定的一组特征。首先，我们将导入数据集并探索其结构。head(caref)众所周知，PCA 使用欧几里得距离来推导分量，因此输入变量需要是数字的。正如我们所看到的，除了“组”变量之外，所有数据都是数字格式，因此我们不必执行任何转换。为了查看数字变量在 3 个价格组中的表现，我分别为每个数字变

2022-05-12 12:14:42 1310 2

原创 R语言生存分析模型因果分析：非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据

理解世界，我们可以从相关性的角度去描述，统计，机器学习，很多问题都是从相关的角度去描述的。我们去构建一个模型，不管是统计机器学习模型，还是深度学习模型，本质上是构建一个复杂映射。从特征到标签的一个映射，这个映射是有用的，但不完全有用。因果分析我们在这里用一个隐喻，下雨，来描述causal 和relevance。我们可以构建一个关于预测明天是否下雨的模型，从搜集到的大量特征，以及历史的下雨结果最为标签，构建模型。不管准确率多少，我们用这样一个模型能够预测明天是否能够下雨。但是，我们很多时候要的不仅

2022-05-11 12:05:22 1397

原创 Matlab最小二乘法：线性最小二乘、加权线性最小二乘、稳健最小二乘、非线性最小二乘与剔除异常值效果比较

原文链接：http://tecdat.cn/?p=26624原文出处：拓端数据部落公众号matlab软件在拟合数据时使用最小二乘法。拟合需要一个参数模型，该模型将因变量数据与具有一个或多个系数的预测数据相关联。拟合过程的结果是模型系数的估计。为了获得系数估计，最小二乘法最小化残差的平方和。第i个数据点ri的残差定义为观测因变量值yi与拟合因变量值ŷi之间的差值，并标识为与数据相关的误差。残差的平方和由下式给出其中n是拟合中包含的数据点的数量， S是误差估.......

2022-05-10 11:10:46 2546

原创 R语言贝叶斯Metropolis-Hastings Gibbs 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间

原文链接：http://tecdat.cn/?p=26578原文出处：拓端数据部落公众号指数分布是泊松过程中事件之间时间的概率分布，因此它用于预测到下一个事件的等待时间，例如，您需要在公共汽车站等待的时间，直到下一班车到了。在本文中，我们将使用指数分布，假设它的参数 λ ，即事件之间的平均时间，在某个时间点 k 发生了变化，即：我们的主要目标是使用 Gibbs 采样器在给定来自该分布的 n 个观测样本的情况下估计参数 λ、α 和 k。吉布斯Gibbs 采样器Gib..

2022-05-09 10:28:49 606

原创 Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

原文链接：http://tecdat.cn/?p=26562该项目包括：自 2000 年 1 月以来的股票价格数据。我们使用的是 Microsoft 股票。将时间序列数据转换为分类问题。使用 TensorFlow 的 LSTM 模型由 MSE 衡量的预测准确性GPU 设置（如果可用）gpus = tf.config.experimental.li读取数据集有几种方法可以获取股市数据。以下数据集是使用 R BatchGetSymbols 生成的。..

2022-05-07 11:50:59 1701

原创 Python用Keras的LSTM神经网络进行时间序列预测天然气价格例子

一个简单的编码器-解码器LSTM神经网络应用于时间序列预测问题：预测天然气价格，预测范围为 10 天。“进入”时间步长也设置为 10 天。) 只需要 10 天来推断接下来的 10 天。可以使用 10 天的历史数据集以在线学习的方式重新训练网络。数据集是天然气价格，具有以下功能：日期（从 1997 年到 2020 年）- 为每天数据以元计的天然气价格读取数据并将日期作为索引处理# 固定日期时间并设置为索引dftet.index = pd.DatetimeIndex# ..

2022-05-05 10:45:38 1249

原创 R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

近似贝叶斯计算和类似技术基于随机模拟模型中的样本计算近似似然值，在过去几年中引起了很多关注，因为它们有望为任何随机过程提供通用统计技术。复杂性，没有由于维护“易处理”似然函数的问题而适用于“传统”统计模型的限制。如果您不确定这一切意味着什么，我向您推荐我们的最近对随机模拟模型的统计推断的评论，旨在对这个令人兴奋的话题进行教学介绍。一位同事现在向我询问我们在我们的文章中讨论过的近似贝叶斯计算 MCMC (ABC-MCMC) 算法的简单示例。审查. 如果你想了解更多关于这个算法的背景知识，请阅读优秀..

2022-04-27 12:14:55 667

【原创】R语言中生存分析Survival analysis晚期肺癌患者4例数据分析报告论文（代码数据）.docx

【原创】R语言中的生存分析Survival analysis晚期肺癌患者4例数据分析报告论文（代码数据）.docx

【原创】R语言使用二元回归将序数数据建模为多元GLM数据分析报告论文（代码数据）.docx

【原创】Python贝叶斯回归分析住房负担能力数据集数据分析报告论文（代码数据）.docx

【原创】R语言在不同样本量下的Little‘s MCAR检验数据分析报告论文（代码数据）.docx

【原创】R语言中的Theil-Sen回归分析数据分析报告论文（代码数据）.docx

【原创】R语言关于回归系数的解释数据分析报告论文（代码数据）.docx

【原创】R语言对二分连续变量进行逻辑回归数据分析报告论文（代码数据）.docx

【原创】R语言中使用多重聚合预测算法（MAPA）进行时间序列分析数据分析报告论文（代码数据）.docx

空空如也