大数据部落

分享最in的大数据资讯,提供“一站式”数据挖掘和统计分析学习和咨询体验,链接:http://y0.cn/teradat 欢迎咨询!...

R语言高维数据的pca、 t-SNE算法降维与可视化分析案例报告

维度降低有两个主要用例:数据探索和机器学习。它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本。然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值)。对于机器学习,降维是有用的,因为在拟合过程中使用较少的特征时,模型通常会更好地概括。 在这篇文章中,我们将...

2019-05-07 17:00:33

阅读数 66

评论数 0

R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验分析案例报告

统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。 什么是列联表? 列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两个变量产生,每个变量有两个级别: ...

2019-05-07 16:51:03

阅读数 163

评论数 0

R语言参数检验 :需要多少样本?如何选择样本数量

参数检验受制于数据属性的假设。例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。 将正态分布拟合到采样均值 为了研究满足学生t检验要求所需的样本数量,我们迭代各种样本...

2019-05-07 16:38:13

阅读数 16

评论数 0

R语言配对检验分析案例

什么是检验对? 检验对的形式(x1,x2)(X1,X2)出现在两种情况中: 对同一实体执行两次测量。例如,一项评估新型胰岛素疗效的临床研究将为每位患者测量两次血糖水平:之前(X1X1)服药后(X2X2)。 对不同的实体进行测量。但是,实体根据其特征进行匹配。例如,为了测试药物的功效,您可能希...

2019-05-07 16:33:47

阅读数 13

评论数 0

R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例

本文显示了如何基于潜在的ARMA-GARCH过程(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。 1从ARMA-GARCH进程模拟(log-return)数据 我们考虑使用\(t \)分布式创新的ARMA(1,1)-GARCH(1,1)过程。 模拟一条路径(用于说明目的)。...

2019-05-07 15:21:12

阅读数 37

评论数 0

R语言stan概率编程规划简介

概率编程使我们能够实现统计模型,而无需担心技术细节。它对基于MCMC采样的贝叶斯模型特别有用。在本文中,我将研究如何通过在R,RStan中实现Stan来使用Stan。这篇文章主要是基于上Rstan的GitHub的文件。 RStan简介 Stan是贝叶斯推理的C ++库。它基于No-U-Turn...

2019-05-06 18:38:30

阅读数 21

评论数 0

线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。 本文主要关注LDA,并探讨其在理论和实践中作为分类和可视化技术的用途。由于Q...

2019-05-06 18:17:22

阅读数 86

评论数 0

R语言中多分类问题 multicalss classification 的性能测量

对于分类问题,通常根据与分类器相关联的混淆矩阵来定义分类器性能。基于矩阵的条目,可以计算灵敏度(召回),特异性和精确度。对于单个截止值,这些量导致平衡的准确度(灵敏度和特异性)或F1分数(召回率和精确度)。为了评估多个截止值下的评分分类器,这些量可用于确定ROC曲线下面积(AUC)或精确召回曲线下...

2019-05-06 18:08:40

阅读数 57

评论数 0

R语言中绘制ROC曲线和PR曲线

接收器操作特性(ROC)曲线可能是评估评分分类器的预测性能的最常用的度量。 预测正类(+1)和负类(-1)的分类器的混淆矩阵具有以下结构: 预测/参考类 +1 -1 +1 TP FP -1 FN TN 这里,TP表示真阳性的数量(模型正确预测正类...

2019-05-06 18:00:28

阅读数 59

评论数 0

R语言中ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型用于预测时间序列数据

在本文中,我将介绍ARMA,ARIMA(Box-Jenkins),SARIMA和ARIMAX模型如何用于预测给定的时间序列数据。 使用后移运算符计算滞后差异 我们可以使用backshift运算符来执行计算。例如,后轴运算符可用于计算的时间序列值的滞后差异ÿy经由yi−Bk(yi),∀i∈k...

2019-05-06 17:51:48

阅读数 117

评论数 0

R语言中的Wilcoxon符号秩检验与配对学生t检验

在这篇文章中,我们将探索比较两组依赖(即成对)定量数据的测试:Wilcoxon符号秩检验和配对学生t检验。这些测试之间的关键区别在于Wilcoxon的测试是非参数测试,而t测试是参数测试。在下文中,我们将探讨这种差异的后果。 睡眠数据集 我们来考虑睡眠数据集。数据集通过提供服用药物后睡眠时间与...

2019-05-06 16:13:48

阅读数 92

评论数 0

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

这次,我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列。 执行环境如下。 R:3.5.1 企业对企业交易和股票价格 在本研究中,我们将研究具有交易关系的公司的价格变化率的时间序列的相似性,而不是网络结构的分析。 由于特定客户的销售额与供应商公司的销售...

2019-04-23 16:26:05

阅读数 49

评论数 0

R语言NYPD纽约市警察局劫持者数据分析

NYPD提供有关数据字典的止损和风险的数据,位于此处。这些数据从2003年到2014年不等,包含450多万 的信息。包括 人的年龄,性别和种族等几个变量。 我写了一些R代码来清理并将数据编译成单个.RData文件。 这篇文章的目的只是为了让这些干净的编译数据集可供其他人与他们自己的数据集结合使用...

2019-04-22 17:37:45

阅读数 29

评论数 0

R语言使用马尔可夫链Markov Chain, MC来模拟抵押违约

这篇文章的目的是将我在夜班学习的材料与我的日常工作和R相结合。 如果我们有一些根据固定概率随时间在状态之间切换的对象,我们可以使用马尔可夫链*来模拟该对象的长期行为。 一个很好的例子是抵押贷款。在任何给定的时间点,贷款都有违约概率,保持最新付款或全额偿还。总的来说,我们将这些称为“转移概率”。...

2019-04-22 17:18:44

阅读数 70

评论数 0

R语言模型中的加总偏误与内生性:一种数值模拟方法

引言 本文中主题是内生性,它可能严重偏向回归估计。我将专门模拟由遗漏变量引起的内生性。在本系列的后续文章中,我将模拟其他规范问题,如异方差性,多重共线性和对撞机偏差。 数据生成过程 考虑一些结果变量的数据生成过程(DGP): 对于该模拟,我设置参数值,以及与模拟正相关的独立变量,和(...

2019-04-22 17:04:19

阅读数 31

评论数 0

在R语言中用模拟探索回归的P值

最近关于p值讨论的爆发激发了我进行简短的模拟研究。 特别是,我想说明p值如何随着效果和样本大小的不同而变化。 以下是模拟的详细信息。我模拟了我的自变量的绘制: 对于每一个,我定义一个as 换句话说,对于每个效果大小,模拟绘制并出现一些错误。估计以下回归模型并观察p值。...

2019-04-22 16:58:18

阅读数 106

评论数 0

用excel来构建柯布-道格拉斯Cobb-Douglas生产函数的可视化

我使用excel来构建Cobb-Douglas生产函数的可视化 。 生产函数将任何给定公司的输出表示为两个输入(人工和资本)和参数(α和β)的函数。当α和β之和等于1时,可以证明它们分别代表劳动力和资本的产出份额。 这种情况也意味着公司的经营规模不断回报。当公司将其投入扩大一定百分比时,产出增...

2019-04-22 16:37:15

阅读数 35

评论数 0

R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

在这篇文章中,我将对多元线性回归做同样的事情。我将得出阻塞的Gibbs采样器所需的条件后验分布。然后我将对采样器进行编码并使用模拟数据对其进行测试。 一个贝叶斯模型 假设我们有一个样本大小的科目。我们观察结果向量。贝叶斯多元回归假设该向量是从多元正态分布中得出的,其中均值向量是和协方差矩阵。这...

2019-04-22 16:27:34

阅读数 28

评论数 0

R语言使用Profviz进行Metropolis-in-Gibbs抽样和运行时间分析

对于许多模型,如物流模型,没有共轭先验 - 所以Gibbs不适用。正如我们在第一篇文章中看到的那样,蛮力网格方法太慢而无法扩展到真实环境。 这篇文章展示了我们如何使用Metropolis-Hastings(MH)从每个被阻挡的Gibbs迭代中的非共轭条件后验中进行采样 - 这是一种比网格方法更好...

2019-04-22 16:22:26

阅读数 17

评论数 0

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

在最近的一篇文章中,我描述了一个Metropolis-in-Gibbs采样器,用于估计贝叶斯逻辑回归模型的参数。 结论是,对数后验的评估是一个重要的运行时间瓶颈。在每次迭代中,对数后验被评估两次:一次在当前抽取,另一次在拟议的抽取。 这篇文章就此问题进行了研究,以展示Rcpp如何帮助克服这一瓶...

2019-04-22 16:18:49

阅读数 86

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭