• 博客(1045)
  • 资源 (14)
  • 收藏
  • 关注

原创 关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

本文数据采集于豆瓣读书网站,分析内容将基于豆瓣读书的图书评分和评论信息。 主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系?关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化,时长07:03截至爬取之日,热门书评数量实时增长,分别是:①:评分>=8.0且评论超过10w+的书籍; ②:只有评论超过10w+的书; ③:按书评数量排名TOP8;经过对比,我发现一些值得一读再读的名著总是在列表中,而且列表中的大部分书籍都是开卷即有益的好

2022-06-07 09:51:14 230

原创 拓端tecdat荣获2022年度51CTO博主之星

相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生产实践,影响着每一位上进的开发者。喜获“2022年度51CTO博主之星”的荣誉对拓端tecdat来说是极大的鼓舞,我们会继续奋勇前行,在包括51CTO等在内的技术社区平台分享更多优质内容和技术干货,真正做数据分析技术的布道者,为更多开发者的成长进步贡献力量。此外还通过录制视频课程、撰写文档,为产品建立入门指南,

2022-06-06 16:26:36 115

原创 Python在Scikit-Learn可视化随机森林中的决策树分析房价数据

随机森林是决策树的集合。 可以通过几种不同的方式轻松地可视化单个决策树. 在这篇文章中,我将向您展示如何从随机森林中可视化决策树。首先让我们在波士顿数据集上训练随机森林模型(这是房价回归任务 )。加载数据并训练随机森林。让我们将森林中的树数设置为 100(这是默认值 ):决策树存储在 模型 中的 属性中 。我们可以检查列表的长度,它应该等于 值。我们可以从随机森林中绘制第一棵决策树( 列表中有索引):你明白什么吗?这棵树太大,无法在一个图中将其可视化并使其可读。让

2022-06-06 10:54:16 849

原创 Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测

该数据由Hopkins 大学根据世界各国提供的新病例数据提供。获取时间序列数据探索数据此表中的数据以累积的形式呈现,为了找出每天的新病例,我们需要减去这些值 这些数据是根据国家和地区报告新病例的数据,但我们只想预测国家的新病例,因此我们使用 groupby 根据国家对它们进行分组 执行 groupby 以根据一个国家的新病例来汇总数据,而不是根据地区 我们可以对每个国家进行预测,也可以对所有国家进行预测,这次我们对所有国家进行预测

2022-06-02 10:28:56 884 2

原创 Python用Apriori 算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

Apriori 算法是一个相当新的算法,由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集挖掘的算法,允许公司理解和组织向上销售和交叉销售活动。最强大的应用程序之一是我们在亚马逊上在线购物时看到的推荐系统 - 以及当今几乎所有电子商务网站上都存在的各种其他版本。这是为了帮助理解一个非常简单的数据集,其中包含单个国际标准书号 (ISBN),它是一本书的唯一国际出版商标识符号。每行代表购买了所列书籍的唯一客户。目标是了解基本购买行为,向客户推荐的其他书籍是什么——这样它可以提高公

2022-06-01 14:22:09 779 1

原创 数据视角可视化分析豆瓣电影评分爬虫数据

原文链接:http://tecdat.cn/?p=26988原文出处:拓端数据部落公众号豆瓣已经成为国内影迷和影评人的聚集地。 豆瓣评分已经成为评价中国电影的重要指标。 豆瓣积累了大量的电影数据,为电影行业分析提供了重要资源。 豆瓣电影被用来衡量国内外电影的发展。中国与其他国家对比汇总年电影总产量。 一直在快速推进的电影产业在2017年出现转折,电影产量开始下滑。 与现在相比,相差1500部左右。 这种趋势一直持续。中国大陆的评分低于整体评分,然后我们选择电影数.

2022-05-31 17:59:15 639

原创 Python条件生存森林模型Conditional Survival Forest 预测客户流失交叉验证

简介客户流失/流失,是企业最重要的指标之一,因为获取新客户的成本通常高于保留现有客户的成本。事实上,根据一个贝恩公司研究,随着时间的推移,现有客户倾向于从公司购买更多产品,从而降低企业的运营成本,并可能将他们使用的产品推荐给其他人。例如,在金融服务领域,客户保留率每增加 5%,利润就会增加 25% 以上。通过使用生存分析,公司不仅可以预测客户是否可能停止开展业务,还可以预测该事件何时发生。数据集描述和概述团队想要使用的数据集包含以下功能:特征类别 功能名称 类型.

2022-05-30 13:26:51 464

原创 【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享

原文链接:http://tecdat.cn/?p=22492降维技术之一是主成分分析 (PCA) 算法,该算法将可能相关变量的一组观察值转换为一组线性不相关变量。在本文中,我们将讨论如何通过使用 R编程语言使用主成分分析来减少数据维度分析葡萄酒数据(查看文末了解数据获取方式)。主成分分析PCA降维方法和R语言分析葡萄酒可视化实例主成分分析PCA降维方法和R语言分析葡萄酒可视化实例,时长04:30高维数据集的处理可能是一个复杂的问题,因为我们需要更高的计算资源,或者难以控制机器.

2022-05-29 11:57:01 527

原创 R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化

在进行交叉验证之前,很自然地说“我会预烧 50%(比如说)我的数据来训练一个模型,然后用剩下的来拟合模型”。例如,我们可以使用训练数据进行变量选择(例如,在逻辑回归中使用一些逐步过程),然后,一旦选择了变量,就将模型拟合到剩余的观察集上。一个自然的问题通常是“这真的重要吗?”。为了可视化这个问题,考虑我的(简单)数据集MYOCARDE=read.table( "saporta.csv", head=TRUE,sep=";")让我们生成 100 个训练样本(我们保留大约 50% 的观

2022-05-26 11:28:41 789

原创 R语言零膨胀泊松回归ZERO-INFLATED POISSON(ZIP)模型分析露营钓鱼数据实例估计IRR和OR

零膨胀泊松回归用于对超过零计数的计数数据进行建模。此外,理论表明,多余的零点是通过与计数值不同的过程生成的,并且可以独立地对多余的零点进行建模。因此, zip模型有两个部分,泊松计数模型和用于预测多余零点的 logit 模型。零膨胀泊松回归示例示例 。州立野生动物生物学家想要模拟州立公园的渔民捕获了多少鱼。游客会被问到他们逗留了多长时间,团队中有多少人,团队中是否有儿童以及捕获了多少鱼。一些游客不钓鱼,但没有关于一个人是否钓鱼的数据。一些钓鱼的游客没有钓到任何鱼,因此数据中存在多余的零,因为..

2022-05-25 11:45:39 1494

原创 R语言用GARCH模型波动率建模和预测、回测风险价值 (VaR)分析股市收益率时间序列

原文链接:http://tecdat.cn/?p=26897风险价值 (VaR)风险价值 (VaR) 是金融风险管理中使用最广泛的市场风险度量,也被投资组合经理等从业者用来解释未来市场风险。VaR 可以定义为资产在给定时间段内以概率 θ 超过的市场价值损失。对于收益率 rt 的时间序列,VaRt将是这样的其中 It-1表示时间 t-1 的信息集。尽管 VaR 在提供资产组合下行风险的简单总结时具有吸引人的简单性,但没有单一的计算方法。1% 风险价值将价格转换为收益lib.

2022-05-24 11:21:40 4141

原创 R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

原文链接:http://tecdat.cn/?p=26868在本教程中,我们将学习覆盖决策树和随机森林。这些是可用于分类或回归的监督学习算法。下面的代码将加载本教程所需的包和数据集。library(tidyverse)# 电信客户流失率数据churn <- read_rds(chuata.rds))数据花点时间探索下面的这个数据集。此数据框中的一行代表一家电信公司的客户。每个客户都从该公司购买了电话和互联网服务。此数据中的因变量变量canceled指示....

2022-05-23 10:33:54 1653

原创 【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享

原文链接:http://tecdat.cn/?p=22732原文出处:拓端数据部落公众号关联规则分析是一种揭示项目如何相互关联的技术。关联规则分析也称为购物篮分析。在这篇文章中,我将解释关联规则模型以及如何在R中提取关联规则。关联规则模型适用于交易数据(查看文末了解数据获取方式)。交易数据的一个例子可以是客户的购物历史。视频:R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化,时长07.

2022-05-20 18:02:52 542

原创 R语言几何布朗运动 GBM模拟股票价格优化建立期权定价概率加权收益曲线可视化

对于模拟股票价格,几何布朗运动 (GBM) 是事实上的首选模型。它有一些很好的属性,通常与股票价格一致,例如对数正态分布(因此向下限制为零),并且期望收益不取决于价格的大小。当然,GBM 只是一个模型,没有一个模型可以完美地代表现实。特别是,GBM 使用恒定波动率,这显然与现实不符。它也没有考虑跳跃,例如由新闻引起的跳跃。尽管有这些限制,GBM 仍然是对股票价格行为进行建模的有用起点。特别是,它非常有助于建立对各种金融概念的直觉——尤其是期权定价。通常,当我们对股票价格进行建模时,我们的..

2022-05-19 11:48:03 1041

原创 python用pystan贝叶斯IRT模型拟合Rasch模型分析学生考试问题数据

由于某大学学生人数过多,助教不足,因此有必要对期中考试给每个学生的题目数量施加五道题的限制。所有必须使用的问题必须来自大约 400 个预先批准的问题的测试库。 50% 的问题可以在期中使用。这项数据驱动研究的目标是找到应该从考试生成算法中排除的问题,以提供班级中最有意义的学生排名。数据分析import numpy as npimport pandas as pdimport pystanimport scipy.statsimport scipy.specialimport matplo

2022-05-18 11:37:42 756

原创 【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

原文链接:http://tecdat.cn/?p=23305原文出处:拓端数据部落公众号什么是支持向量机 (SVM)?我们将从简单的理解 SVM 开始。【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例,时长07:24假设我们有两个标签类的图,如下图所示:你能决定分隔线是什么吗?你可能想出了这个:这条线将类完全分开。这就是 SVM 本质上所做的——简单的类分离。.

2022-05-17 19:09:54 2061

原创 【视频】风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例

原文链接:http://tecdat.cn/?p=22862原文出处:拓端数据部落公众号什么是风险价值(VaR)?风险价值 (VaR) 是一种统计数据,用于量化公司、投资组合在特定时间范围内可能发生的财务损失程度。该指标最常被投资银行和商业银行用来确定其机构投资组合中潜在损失的程度和概率。视频:风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例风险价值VaR原理与Python蒙特卡罗Monte Carlo模拟计算投资组合实例,时长10:.

2022-05-17 18:48:02 629

原创 R语言用Keras长短期记忆LSTM神经网络分类分析问答文本数据

介绍本文是在 R 中使用 Keras 的简单介绍。软件包library(tidyverse) #导入、清理、可视化 library(keras) # 用keras进行深度学习library(data.table) # 快速读取csv数据导入让我们看一下数据tst %>% head()初步查看让我们考虑几个 用户可能提出的“不真诚”问题的例子trn %>% filter(tart == 1) %>% sme_n(5)我可以

2022-05-17 10:08:41 1114 1

原创 R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列

在本笔记本中,我们向读者介绍了基本的随机波动率模型,并通过连续顺序重要性重采样讨论了它们的估计。我们使用收益率数据集来讨论 CSIR 在随机波动率模型估计中的实现和性能。第一个随机波动率模型令 yt 为时间 t的股票收益,σt 为其标准差。考虑以下离散时间随机波动率模型:zt∼N(0,1) 和 ηt∼N(0,τ2) ,τ>0 和 |φ1|<1 以确保波动率遵循平稳过程。直观地说,波动过程被建模为一个潜在过程,其中 log(σ2t) 遵循 AR(1) 过程。在下一个块中,我..

2022-05-16 11:48:45 574

原创 【视频】从决策树到随机森林:R语言信用卡违约分析信贷数据实例|数据分享

原文链接:http://tecdat.cn/?p=23344原文出处:拓端数据部落公众号本文中我们介绍了决策树和随机森林的概念,并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡违约数据分析(查看文末了解数据获取方式)。决策树是由节点和分支组成的简单树状结构。根据每个节点的任何输入特征拆分数据,生成两个或多个分支作为输出。这个迭代过程增加了生成的分支的数量并对原始数据进行了分区。这种情况一直持续到生成一个节点,其中所有或几乎所有数据都属于同一类,并且不再可能进一步拆分或分支。视.

2022-05-16 11:22:55 1058 1

原创 R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化

在这个项目中,我讨论了如何使用主成分分析 (PCA) 进行简单的预测。出于说明目的,我们将对一个数据集进行分析,该数据集包含有关在 3 个不同价格组内进行的汽车购买信息以及影响其购买决定的一组特征。首先,我们将导入数据集并探索其结构。head(caref)众所周知,PCA 使用欧几里得距离来推导分量,因此输入变量需要是数字的。正如我们所看到的,除了“组”变量之外,所有数据都是数字格式,因此我们不必执行任何转换。为了查看数字变量在 3 个价格组中的表现,我分别为每个数字变

2022-05-12 12:14:42 1310 2

原创 R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据

理解世界,我们可以从相关性的角度去描述,统计,机器学习,很多问题都是从相关的角度去描述的。我们去构建一个模型,不管是统计机器学习模型,还是深度学习模型,本质上是构建一个复杂映射。从特征到标签的一个映射,这个映射是有用的,但不完全有用。因果分析我们在这里用一个隐喻,下雨,来描述causal 和relevance。我们可以构建一个关于预测明天是否下雨的模型,从搜集到的大量特征,以及历史的下雨结果最为标签,构建模型。不管准确率多少,我们用这样一个模型能够预测明天是否能够下雨。但是,我们很多时候要的不仅

2022-05-11 12:05:22 1397

原创 Matlab最小二乘法:线性最小二乘、加权线性最小二乘、稳健最小二乘、非线性最小二乘与剔除异常值效果比较

原文链接:http://tecdat.cn/?p=26624原文出处:拓端数据部落公众号matlab软件在拟合数据时使用最小二乘法。拟合需要一个参数模型,该模型将因变量数据与具有一个或多个系数的预测数据相关联。拟合过程的结果是模型系数的估计。为了获得系数估计,最小二乘法最小化残差的平方和。第i个数据点ri的残差定义为观测因变量值yi与拟合因变量值ŷi之间的差值,并标识为与数据相关的误差。残差的平方和由下式给出其中n是拟合中包含的数据点的数量, S是误差估.......

2022-05-10 11:10:46 2546

原创 R语言贝叶斯Metropolis-Hastings Gibbs 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间

原文链接:http://tecdat.cn/?p=26578原文出处:拓端数据部落公众号指数分布是泊松过程中事件之间时间的概率分布,因此它用于预测到下一个事件的等待时间,例如,您需要在公共汽车站等待的时间,直到下一班车到了。在本文中,我们将使用指数分布,假设它的参数 λ ,即事件之间的平均时间,在某个时间点 k 发生了变化,即:我们的主要目标是使用 Gibbs 采样器在给定来自该分布的 n 个观测样本的情况下估计参数 λ、α 和 k。吉布斯Gibbs 采样器Gib..

2022-05-09 10:28:49 606

原创 Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

原文链接:http://tecdat.cn/?p=26562该项目包括:自 2000 年 1 月以来的股票价格数据。我们使用的是 Microsoft 股票。 将时间序列数据转换为分类问题。 使用 TensorFlow 的 LSTM 模型 由 MSE 衡量的预测准确性GPU 设置(如果可用)gpus = tf.config.experimental.li读取数据集有几种方法可以获取股市数据。以下数据集是使用 R BatchGetSymbols 生成的。..

2022-05-07 11:50:59 1701

原创 Python用Keras的LSTM神经网络进行时间序列预测天然气价格例子

一个简单的编码器-解码器LSTM神经网络应用于时间序列预测问题:预测天然气价格,预测范围为 10 天。“进入”时间步长也设置为 10 天。) 只需要 10 天来推断接下来的 10 天。可以使用 10 天的历史数据集以在线学习的方式重新训练网络。数据集是天然气价格,具有以下功能:日期(从 1997 年到 2020 年)- 为 每天数据 以元计的天然气价格读取数据并将日期作为索引处理# 固定日期时间并设置为索引dftet.index = pd.DatetimeIndex# ..

2022-05-05 10:45:38 1249

原创 R语言近似贝叶斯计算MCMC(ABC-MCMC)轨迹图和边缘图可视化

近似贝叶斯计算和类似技术基于随机模拟模型中的样本计算近似似然值,在过​​去几年中引起了很多关注,因为它们有望为任何随机过程提供通用统计技术。复杂性,没有由于维护“易处理”似然函数的问题而适用于“传统”统计模型的限制。如果您不确定这一切意味着什么,我向您推荐我们的最近对随机模拟模型的统计推断的评论,旨在对这个令人兴奋的话题进行教学介绍。一位同事现在向我询问我们在我们的文章中讨论过的近似贝叶斯计算 MCMC (ABC-MCMC) 算法的简单示例。审查. 如果你想了解更多关于这个算法的背景知识,请阅读优秀..

2022-04-27 12:14:55 667

原创 R语言马尔可夫MCMC中的Metropolis Hastings,MH算法抽样(采样)法可视化实例

原文链接:http://tecdat.cn/?p=26324介绍Metropolis Hastings 算法是一种非常简单的算法,用于从难以采样的分布中生成样本。假设我们要从分布 π 中进行采样,我们将其称为“目标”分布。为简单起见,我们假设 π是实线上的一维分布,尽管它很容易扩展到一维以上(见下文)。MH 算法通过模拟马尔可夫链来工作,其平稳分布为 π。这意味着,从长远来看,来自马尔可夫链的样本看起来像来自 π的样本。正如我们将看到的,该算法非常简单和灵活。MH算法转移核要实.

2022-04-26 12:09:14 2758

原创 MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类

此示例说明如何使用长短期记忆 (LSTM) 网络对序列数据的每个时间步长进行分类。要训​​练深度神经网络对序列数据的每个时间步进行分类,可以使用序列到序列 LSTM 网络。序列到序列 LSTM 网络使您能够对序列数据的每个单独时间步进行不同的预测。此示例使用从佩戴在身上的智能手机获取的传感器数据。该示例训练 LSTM 网络,以在给定时间序列数据的情况下识别佩戴者的活动,这些数据表示三个不同方向的加速度计读数。训练数据包含七个人的时间序列数据。每个序列具有三个特征并且长度不同。数据集包含六个训练观察.

2022-04-25 10:58:14 2105 2

原创 【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享

原文链接:http://tecdat.cn/?p=24141原文出处:拓端数据部落公众号在这个视频中,我们转向简单线性回归中的贝叶斯推断。我们将使用一个参照先验分布,它提供了频率主义解决方案和贝叶斯答案之间的联系。然后在R语言中用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资数据(查看文末了解数据获取方式)。视频:线性回归中的贝叶斯推断与R语言预测工人工资数据案例贝叶斯推断线性回归与R语言预测工人工资数据,时长09:58为了说明这些想法,我们将使...

2022-04-23 11:23:46 1587

原创 R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

线性模型是统计学的基础,但它的意义远不止用尺子在几个点上画一条线。

2022-04-21 12:01:22 2683

原创 R语言极值理论:希尔HILL统计量尾部指数参数估计可视化

原文链接:http://tecdat.cn/?p=26277原文出处:拓端数据部落公众号极值理论对样本尾部分布的极值指数的估计方法主要有两类:半参数方法和全 参数方法,前者主要是基于分布尾部的 Hill 估计量,后者则主要基于广义帕累托分布。尾部指数的希尔HILL统计量估计。更具体地说,我们看到如果, 和,然后希尔HILL估计为。 然后在某种意义上满足某种一致性,如果,即(在收敛速度的附加假设下,)。此外,在附加的技术条件下为了说明这一点,请考虑.........

2022-04-21 10:45:05 805

原创 R语言GARCH模型对股市sp500收益率bootstrap、滚动估计预测VaR、拟合诊断和蒙特卡罗模拟可视化

原文链接:http://tecdat.cn/?p=26271原文出处:拓端数据部落公众号介绍Box 等人的开创性工作(1994) 在自回归移动平均模型领域的相关工作为波动率建模领域的相关工作铺平了道路,分别由 Engle (1982) 和 Bollerslev (1986) 引入了 ARCH 和 GARCH 模型。这些模型的扩展包括更复杂的动力学,例如阈值模型来捕捉新闻影响的不对称性,以及除正态之外的分布来解释实践中观察到的偏度和过度峰度。在进一步的扩展中,本文旨在为单变量 GARC

2022-04-19 17:55:00 1273

原创 python用TensorFlow 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估

原文链接:http://tecdat.cn/?p=26230原文出处:拓端数据部落公众号什么是CNN本文演示了如何训练一个简单的卷积神经网络 (CNN) 来对 图像进行分类。ConvolutionalNeuralNetworks(ConvNets 或 CNNs)是一类神经网络,已被证明在图像识别和分类等领域非常有效。与传统的多层感知器架构不同,它使用两个称为convolution和pooling的操作将图像简化为其基本特征,并使用这些特征来理解和分类图像。C......

2022-04-18 17:51:41 2278

原创 【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

原文链接:http://tecdat.cn/?p=22482原文出处:拓端数据部落公众号为什么要使用Boosting?单一模型的预测往往会有缺陷,为了解决复杂的问题,我们需要集成学习通过组合多个模型来提高机器学习的预测性能。视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例,时长10:25假设给定包含猫和其他动物图像的数据集,您被要求构建一个模型,可以将这些图

2022-04-15 18:12:47 1089

原创 Python银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机svm分析营销活动数据

原文链接:http://tecdat.cn/?p=26219原文出处:拓端数据部落公众号银行数据集我们的数据集描述该数据与银行机构的直接营销活动相关,营销活动基于电话。通常,需要与同一客户的多个联系人联系,以便访问产品(银行定期存款)是否会(“是”)或不会(“否”)订阅。y - 客户是否订阅了定期存款?(二进制:'是','否')我们的目标是选择最好的回归模型来让客户订阅或不订阅定期存款。我们将使用如下算法:线性回归 随机森林回归 KNN近邻 决策树 高斯朴素贝叶斯.

2022-04-14 19:29:05 3310

原创 R语言结构方程模型SEM分析心理学和营销研究数据路径图可视化

原文链接:http://tecdat.cn/?p=26206原文出处:拓端数据部落公众号结构方程建模 (SEM) 是一种全面而灵活的方法,包括在假设模型中研究变量之间的关系,无论它们是测量的还是潜在的,这意味着不可直接观察到,就像任何心理构造(例如,智力、满意度,希望,信任)。因为它是一种多元分析方法,它结合了因子分析的输入以及基于或衍生自多元回归分析方法和规范分析的方法。灵活,因为它不仅可以识别变量之间的直接和间接影响,还可以估计包括潜在变量均值在内的各种复杂模型的参数。SEM 方法的

2022-04-13 17:49:35 1651

原创 Python信贷风控模型:梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和模型优化

原文链接:http://tecdat.cn/?p=26184原文出处:拓端数据部落公众号在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化?有25个变量:1. ID:每个客户的ID2. LIMIT_BAL:金额3. SEX:性别(1 =男,2 =女)4.教育程度:(1 =研究生,2 =本科,3 =高中,4 =其他,5 =未知)5.婚姻:婚姻状况(1 =已婚,2 =单身,3 =其他)6.年龄:.....

2022-04-12 21:35:02 1297

原创 SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据

原文链接:http://tecdat.cn/?p=26177原文出处:拓端数据部落公众号GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用已知目标值的训练数据来创建模型 ,然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据,则该模型可以很好地 推广。良好的概括是预测任务的主要目标。预测模型可能很好地拟合了训练数据,但泛化性很差。决策树 是一种预测模型已在统计和人工智能社区自主开发。GRADBOOST通过拟合一组加性树来创建预......

2022-04-11 22:49:43 1571

原创 【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

原文链接:http://tecdat.cn/?p=10278原文出处:拓端数据部落公众号生存分析(也称为工程中的可靠性分析)的目标是在协变量和事件时间之间建立联系。生存分析的名称源于临床研究,其中预测死亡时间,即生存,通常是主要目标。视频:R语言生存分析原理与晚期肺癌患者分析案例R语言生存分析Survival analysis原理与晚期肺癌患者分析案例,时长08:41生存分析是一种回归问题(人们想要预测一个连续值),但有一个转折点。它与传统回归的不同之处在于..

2022-04-08 19:31:33 1058

【原创】R语言中生存分析Survival analysis晚期肺癌患者4例数据分析报告论文(代码数据).docx

【原创】R语言中生存分析Survival analysis晚期肺癌患者4例数据分析报告论文(代码数据).docx

2021-09-06

【原创】R语言中的生存分析Survival analysis晚期肺癌患者4例数据分析报告论文(代码数据).docx

【原创】R语言中的生存分析Survival analysis晚期肺癌患者4例数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言使用二元回归将序数数据建模为多元GLM数据分析报告论文(代码数据).docx

【原创】R语言使用二元回归将序数数据建模为多元GLM数据分析报告论文(代码数据).docx

2021-08-25

【原创】Python贝叶斯回归分析住房负担能力数据集数据分析报告论文(代码数据).docx

【原创】Python贝叶斯回归分析住房负担能力数据集数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言在不同样本量下的Little‘s MCAR检验数据分析报告论文(代码数据).docx

【原创】R语言在不同样本量下的Little‘s MCAR检验数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言中的Theil-Sen回归分析数据分析报告论文(代码数据).docx

【原创】R语言中的Theil-Sen回归分析数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言关于回归系数的解释数据分析报告论文(代码数据).docx

【原创】R语言关于回归系数的解释数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言对二分连续变量进行逻辑回归数据分析报告论文(代码数据).docx

【原创】R语言对二分连续变量进行逻辑回归数据分析报告论文(代码数据).docx

2021-08-25

【原创】R语言中使用多重聚合预测算法(MAPA)进行时间序列分析数据分析报告论文(代码数据).docx

【原创】R语言中使用多重聚合预测算法(MAPA)进行时间序列分析数据分析报告论文(代码数据).docx

2021-08-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除