![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 86
拓端研究室
这个作者很懒,什么都没留下…
展开
-
游记数据感知旅游目的地形象|文本挖掘:主题模型(LDA)及R语言实现分析游记数据
越来越多的人愿意精神消费。旅游不仅可以提升人们对外地环境和外地人文的认知,也可以放松身心、愉悦心情,是一种受欢迎的精神消费。▼随着国内近些年来互联网的发展,越来越多的人开始线上消费,消费感受的推荐成为了潮流。在各个旅游平台上,越来越多的人愿意参与旅游目的地游玩感受的分享。本文试图从马蜂窝旅游官网上就新疆这个旅游目的地游记进行感知分析。游记表现出多元复杂的情感通过情感分析(也称为意见挖掘),用文本挖掘和计算.........原创 2020-09-02 12:34:51 · 1730 阅读 · 0 评论 -
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
在这里,我们观察到奇异拟合,因为截距和x随机效应之间的相关性是-1。处理该模型的一种方法是删除高阶随机效应(例如X:ConditionB),并查看在测试奇异性时是否有区别另一种是使用贝叶斯方法,例如blme软件包以避免奇异性。...原创 2020-08-05 11:26:50 · 3107 阅读 · 0 评论 -
R语言时间序列TAR阈值自回归模型
原文链接:http://tecdat.cn/?p=5231为了方便起见,这些模型通常简称为TAR模型。这些模型捕捉线性时间序列模型无法捕获的行为,如极限循环,幅度相关频率和跳跃现象。数据示例TAR模型通过抑制噪声项和截距并将阈值设置为0来获得:模型估计一种方法和这里讨论的方法是条件最小二乘(CLS)方法。情况1.如果r和d都是已知的。情况2.如果r未知。......原创 2020-12-24 10:04:26 · 7461 阅读 · 2 评论 -
基于R语言混合效应模型(mixed model)案例研究
原文http://tecdat.cn/?p=2596混合模型适合需求吗?混合模型在很多方面与线性模型相似。它估计一个或多个解释变量对响应变量的影响。混合模型的输出将给出一个解释值列表,其效应值的估计值和置信区间,每个效应的p值以及模型拟合程度的至少一个度量。如果您有一个变量将您的数据样本描述为您可能收集的数据的子集,则应该使用混合模型而不是简单的线性模型。什么概率分布最适合数据?......原创 2020-12-27 11:32:09 · 17118 阅读 · 11 评论 -
拓端tecdat|python主题LDA建模和t-SNE可视化
原文:http://tecdat.cn/?p=4261使用潜在Dirichlet分配(LDA)和t-SNE中的可视化进行主题建模。本文中的代码片段仅供您在阅读时更好地理解。有关完整的工作代码,请参阅此回购。我们将首先介绍主题建模和t-SNE,然后将这些技术应用于两个数据集:20个新闻组和推文。什么是主题建模?主题模型是一套算法/统计模型,可以揭示文档集中的隐藏主题。直观地......原创 2020-11-16 10:06:28 · 4542 阅读 · 2 评论 -
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
原文链接:http://tecdat.cn/?p=6690在最近的一篇文章中,我描述了一个Metropolis-in-Gibbs采样器,用于估计贝叶斯逻辑回归模型的参数。这篇文章就此问题进行了研究,以展示Rcpp如何帮助克服这一瓶颈。 TLDR:只需用C ++编写log-posterior而不是矢量化R函数,我们就可以大大减少运行时间。我模拟了与上一篇文章类似的.........原创 2019-06-13 08:40:33 · 958 阅读 · 2 评论 -
R语言使用Profviz进行Metropolis-in-Gibbs抽样和运行时间分析
对于许多模型,如物流模型,没有共轭先验 - 所以Gibbs不适用。正如我们在第一篇文章中看到的那样,蛮力网格方法太慢而无法扩展到真实环境。这篇文章展示了我们如何使用Metropolis-Hastings(MH)从每个被阻挡的Gibbs迭代中的非共轭条件后验中进行采样 - 这是一种比网格方法更好的替代方案。模型该示例的模拟数据是患者的横截面数据集。有一个二元结果,一个二元治疗变量...原创 2019-06-13 08:40:20 · 661 阅读 · 1 评论 -
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归
在这篇文章中,我将对多元线性回归做同样的事情。我将得出阻塞的Gibbs采样器所需的条件后验分布。一个贝叶斯模型假设我们有一个样本大小的科目。我们观察结果向量。贝叶斯多元回归假设该向量是从多元正态分布中得出的,其中均值向量是和协方差矩阵。这里是观察到的协变量矩阵。注意,该矩阵的第一列是标识。参数矢量的, 是一种常见的方差参数,是单位矩阵。通过使用单位矩阵,我们假设独立观察。从形式上看......原创 2019-06-13 08:40:02 · 1791 阅读 · 1 评论 -
用excel来构建柯布-道格拉斯Cobb-Douglas生产函数的可视化
原文:http://tecdat.cn/?p=3430我使用excel来构建Cobb-Douglas生产函数的可视化 。生产函数将任何给定公司的输出表示为两个输入(人工和资本)和参数(α和β)的函数。当α和β之和等于1时,可以证明它们分别代表劳动力和资本的产出份额。这种情况也意味着公司的经营规模不断回报。当公司将其投入扩大一定百分比时,产出增加相同的数量。如果我们指定alph...原创 2019-06-13 08:39:40 · 3838 阅读 · 0 评论 -
R语言使用马尔可夫链Markov Chain, MC来模拟抵押违约
原文http://tecdat.cn/?p=3603这篇文章的目的是将我学习的材料与我的日常工作和R相结合。如果我们有一些根据固定概率随时间在状态之间切换的对象,我们可以使用马尔可夫链*来模拟该对象的长期行为。一个很好的例子是抵押贷款。在任何给定的时间点,贷款都有违约概率,保持最新付款或全额偿还。总的来说,我们将这些称为“转移概率”。假设这些概率在贷款期限内是固定的**。举.........原创 2019-06-13 08:38:48 · 2432 阅读 · 1 评论 -
R语言rjags使用随机效应进行臭氧数据分析
原文链接:http://tecdat.cn/?p=6894加载和格式化数据rm(list=ls()) ls()## [1] "s" "Y"dim(Y)## [1] 1106 31dim(s)## [1] 1106 2ns <- nrow(Y) plot(s,axes=FALSE,xlab="",ylab="",main="Monitor lo...原创 2019-06-12 21:41:59 · 961 阅读 · 1 评论 -
R语言k-Shape时间序列聚类方法对股票价格时间序列聚类
原文 :http://tecdat.cn/?p=3726这次,我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列。企业对企业交易和股票价格在本研究中,我们将研究具有交易关系的公司的价格变化率的时间序列的相似性,而不是网络结构的分析。由于特定客户的销售额与供应商公司的销售额之比较大,当客户公司的股票价格发生变化时,对供应商公司股票价格的反......原创 2019-06-12 21:41:25 · 4242 阅读 · 2 评论 -
R语言估计时变VAR模型时间序列的实证研究分析案例
原文http://tecdat.cn/?p=3364加载R包和数据集上述症状数据集包含在R-package 中,并在加载时自动可用。 加载包后,我们将此数据集中包含的12个心情变量进行子集化:对象mood_data是一个1476×12矩阵,测量了12个心情变量:time_data包含有关每次测量的时间戳的信息。数据预处理需要此信息。...原创 2019-06-12 21:40:46 · 5620 阅读 · 2 评论 -
R语言中的Wilcoxon符号秩检验与配对学生t检验
原文链接:http://tecdat.cn/?p=3172在这篇文章中,我们将探索比较两组依赖(即成对)定量数据的测试:Wilcoxon符号秩检验和配对学生t检验。这些测试之间的关键区别在于Wilcoxon的测试是非参数测试,而t测试是参数测试。在下文中,我们将探讨这种差异的后果。睡眠数据集我们来考虑睡眠数据集。数据集通过提供服用药物后睡眠时间与基线相比的变化来对比两种催眠药物(...原创 2019-06-12 21:40:25 · 12953 阅读 · 2 评论 -
R语言中ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型用于预测时间序列数据
原文链接:http://tecdat.cn/?p=5919在本文中,我将介绍ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型如何用于预测给定的时间序列数据。使用后移运算符计算滞后差分我们可以使用backshift运算符来执行计算。例如,后轴运算符可用于计算的时间序列值的滞后差异ÿy经由yi−Bk(yi),∀i∈k+1,…,tyi−Bk(yi)......原创 2019-06-12 21:39:51 · 9347 阅读 · 1 评论 -
R语言中绘制ROC曲线和PR曲线
原文链接:http://tecdat.cn/?p=6236ROC 曲线可能是评估评分分类器的预测性能的最常用的度量。预测正类(+1)和负类(-1)的分类器的混淆矩阵具有以下结构:预测/参考类 +1 -1 +1 TP FP -1 FN TN 这里,TP表示真阳性的数量(模型正确预测正类),FP表示误报的数量(模型错误地预测正类),F...原创 2019-06-12 21:38:40 · 6778 阅读 · 1 评论 -
R语言中多分类问题 multicalss classification 的性能测量
原文链接:https://www.cnblogs.com/tecdat/p/10821303.html对于分类问题,通常根据与分类器相关联的混淆矩阵来定义分类器性能。基于矩阵的条目,可以计算灵敏度(召回),特异性和精确度。对于二元分类问题,所有这些性能测量都很容易获得。哪种衡量标准取决于分类器的类型。硬分类器是非得分的,因为它们只产生结果。另一方面,软分类器是评分分类器,其产生...原创 2019-06-12 21:37:29 · 4658 阅读 · 1 评论 -
R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
原文链接:http://tecdat.cn/?p=5689判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。本文主要关注LDA,并探讨其在理论和实践中作为分类和可视化技术的用途。由于QDA和RDA是相关技术,我不久将描...原创 2019-06-12 21:36:29 · 12291 阅读 · 1 评论 -
R语言Rstan概率编程规划MCMC采样的贝叶斯模型
原文http://tecdat.cn/?p=3234概率编程使我们能够实现统计模型,而无需担心技术细节。它对基于MCMC采样的贝叶斯模型特别有用。在本文中,我将研究如何通过在R。简介RStan是贝叶斯推理的C ++库。它基于No-U-Turn采样器(NUTS),用于根据用户指定的模型和数据估计后验分布。使用Stan执行分析涉及以下步骤:使用Stan建模语言指定统计模型。...原创 2019-06-12 21:35:27 · 5525 阅读 · 1 评论 -
R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例
原文链接:http://tecdat.cn/?p=3186本文显示了如何基于潜在的ARMA-GARCH过程(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。1从ARMA-GARCH进程模拟(log-return)数据我们考虑使用\(t \)分布式创新的ARMA(1,1)-GARCH(1,1)过程。模拟一条路径(用于说明目的)。 nu <-.........原创 2019-06-12 19:47:38 · 16056 阅读 · 2 评论 -
R语言配对检验分析案例
原文http://tecdat.cn/?p=3424什么是检验对?检验对的形式(x1,x2)(X1,X2)出现在两种情况中:对同一实体执行两次测量。例如,一项评估新型胰岛素疗效的临床研究将为每位患者测量两次血糖水平:之前(X1X1)服药后(X2X2)。 对不同的实体进行测量。但是,实体根据其特征进行匹配。例如,为了测试药物的功效,您可能希望根据体重,年龄或其他特征配对研究参...原创 2019-06-12 19:45:41 · 4800 阅读 · 1 评论 -
R语言参数检验 :需要多少样本?如何选择样本数量
原文:http://tecdat.cn/?p=3719参数检验受制于数据属性的假设。例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。将正态分布拟合到采样均值为了研究满足学生t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中...原创 2019-06-12 19:45:17 · 1228 阅读 · 1 评论 -
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
原文http://tecdat.cn/?p=3715统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。什么是列联表?列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两个变量产生,每个变量有两个级别:组/观察 观察1 观察2...原创 2019-06-12 19:44:48 · 5910 阅读 · 1 评论 -
R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
原文链接:http://tecdat.cn/?p=6592维度降低有两个主要用例:数据探索和机器学习。它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本。然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值)。对于机器学习,降维是有用的,因为在拟合过程中使用较少的特征时,模型通常会更好地概括。在这篇文章中,我们将研究三维降维技术:主成分分析(......原创 2019-06-12 19:44:25 · 6884 阅读 · 1 评论 -
卡尔曼滤波器:用R语言中的KFAS建模时间序列
原文链接:http://tecdat.cn/?p=6762时间序列预测,ARIMA等传统模型通常是一种流行的选择。虽然这些模型可以证明具有高度的准确性,但它们有一个主要缺点 - 它们通常不会解释“冲击”或时间序列的突然变化。让我们看看我们如何使用称为卡尔曼滤波器的模型来潜在地缓解这个问题。时间序列我们以货币市场为例。货币对可能会有整体上升趋势,然后在抛售期间大幅下跌。传统...原创 2019-06-12 19:40:14 · 2442 阅读 · 1 评论 -
R语言: GARCH模型股票交易量的研究道琼斯股票市场指数
原文链接:http://tecdat.cn/?p=6632我将建立道琼斯工业平均指数(DJIA)日交易量对数比的ARMA-GARCH模型。 获取数据load(file='DowEnvironment.RData') 日交易量每日交易量内发生的 变化。plot(dj_vol)首先,我们验证具有常数均值的线性回归在统计上是显着的。 ......原创 2019-06-12 18:55:22 · 6103 阅读 · 1 评论 -
R语言使用K-Means聚类可视化WiFi访问
原文链接:http://tecdat.cn/?p=6715可视化已成为数据科学在电信行业中的关键应用。具体而言,电信分析高度依赖于地理空间数据的使用。这是因为电信网络本身在地理上是分散的,并且对这种分散的分析可以产生关于网络结构,消费者需求和可用性的有价值的见解。数据为了说明这一点,使用k均值聚类算法来分析免费公共WiFi的地理数据。具体地,k均值聚类算法用于基于与特定......原创 2019-06-12 18:54:34 · 1949 阅读 · 1 评论 -
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
原文链接:http://tecdat.cn/?p=6663此示例中,神经网络用于使用2011年4月至2013年2月期间的数据预测都柏林市议会公民办公室的能源消耗。每日数据是通过总计每天提供的15分钟间隔的消耗量来创建的。LSTM简介LSTM(或长期短期存储器网络)允许分析具有长期依赖性的顺序或有序数据。当涉及到这项任务时,传统的神经网络不足,在这方面,LSTM将用于预测这种情况下...原创 2019-06-12 18:53:10 · 6694 阅读 · 2 评论 -
R语言进行数值模拟:模拟泊松回归模型的数据
原文链接:http://tecdat.cn/?p=6751模拟回归模型的数据验证回归模型的首选方法是模拟来自它们的数据,并查看模拟数据是否捕获原始数据的相关特征。感兴趣的基本特征是平均值。我喜欢这种方法,因为它可以扩展到广义线性模型(logistic,Poisson,gamma,...)和其他回归模型,比如t-regression。您的标准回归模型假设存在将预测变量与结果相关联......原创 2019-06-12 19:43:58 · 5545 阅读 · 1 评论 -
R语言有RStan的多维验证性因子分析(CFA)
原文链接:http://tecdat.cn/?p=6532如果您已经熟悉RStan,那么您需要组合的基本概念是具有相关随机斜率和异方差误差的标准多级模型。我将R代码嵌入到演示中。所需的包是lavaan,lme4和RStan。我喜欢将大多数统计方法理解为回归模型。这样,很容易理解大量技术背后的主张。这是一种适用于SEM和IRT模型的方法。在这里,我将重点关注验证性因子分析(CFA)...原创 2019-06-12 19:43:34 · 1875 阅读 · 1 评论 -
R语言是否对二分连续变量执行逻辑回归
原文链接:http://tecdat.cn/?p=6851教育或医学的标准情况是我们有一个持续的衡量标准,但随后我们对那些具有临床/实际意义的连续措施有了切入点。一个例子是BMI。您可以通过70分作为成绩测试进行成绩测试。当这种情况发生时,研究人员有时可能会对BMI模型超过30或通过/失败感兴趣。实质性问题通常属于模拟某人超过/低于该临床显着阈值的概率的线条。因此,我们使用逻辑回归等方法......原创 2019-06-12 19:43:12 · 882 阅读 · 1 评论 -
R语言实现 Copula 算法建模相依性案例分析报告
原文链接:http://tecdat.cn/?p=6193copula是将多变量分布函数与其边际分布函数耦合的函数,通常称为边缘。Copula是建模和模拟相关随机变量的绝佳工具。Copula的主要吸引力在于,通过使用它们,你可以分别对相关结构和边缘(即每个随机变量的分布)进行建模。copulas如何工作首先,让我们了解copula的工作方式。 set.seed(100...原创 2019-06-12 19:42:41 · 15942 阅读 · 2 评论 -
R语言实现拟合神经网络预测和结果可视化
原文链接:http://tecdat.cn/?p=6691神经网络一直是迷人的机器学习模型之一,不仅因为花哨的反向传播算法,而且还因为它们的复杂性(考虑到许多隐藏层的深度学习)和受大脑启发的结构。原创 2019-06-12 19:42:30 · 6621 阅读 · 3 评论 -
基于r语言的疾病制图中自适应核密度估计的阈值选择方法案例
原文链接:http://tecdat.cn/?p=6863背景诸如核密度估计(KDE)的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数(带宽或阈值)控制,该参数影响疾病图的分辨率和计算的速率的可靠性。方法内核,带宽的大小,是影响在KDE [在地图上的平滑的程度的关键参数 ]。带宽可以是固定的也可以是可变的(自适应的)。对于固定带宽方法,内...原创 2019-06-12 19:41:13 · 1103 阅读 · 1 评论 -
R语言周氏检验(Chow test) 检验回归中结构不稳定性的虚拟变量的替代方案
原文链接:https://www.cnblogs.com/tecdat/p/11009162.html全球化时代快速增长的经济体之一是埃塞俄比亚经济。在低收入国家中,它已成为在国内生产总值(GDP)中实现两位数增长率的少数几个国家之一。然而,关于两位数的增长率存在很多争论,特别是在最近的全球经济衰退期间。因此,埃塞俄比亚的GDP与回归量(时间)之间的关系是否存在结构性变化,这成为一个实证研究...原创 2019-06-12 13:39:59 · 8063 阅读 · 1 评论 -
R语言对推特twitter数据进行文本情感分析
原文链接:http://tecdat.cn/?p=4012我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。原创 2020-12-10 18:46:55 · 2081 阅读 · 1 评论