大数据部落

数理统计

关注

文章平均质量分 80

关注数：文章数：141 文章阅读量：386806 文章收藏量：2591

作者: 拓端研究室

这个作者很懒，什么都没留下…

展开

MATLAB用Lasso回归拟合高维数据和交叉验证

原文链接：http://tecdat.cn/?p=25741原文出处：拓端数据部落公众号此示例显示如何lasso识别和舍弃不必要的预测变量。使用各种方法从指数分布生成 200 个五维数据 X 样本。rng(3,'twister') % 实现可重复性for i = 1:5 X(:,i) = exprndend生成因变量数据Y= X* r+ eps，其中r只有两个非零分量，噪声eps正态分布，标准差为 0.1。用拟合交叉验证......

原创 2022-03-04 21:10:39 · 2196 阅读 · 0 评论
关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

本文数据采集于豆瓣读书网站，分析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点：有哪些书籍值得推荐？一般书籍的价格是多少？一本书的评分和评论数量之间是否存在某种关系？关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化，时长07:03截至爬取之日，热门书评数量实时增长，分别是：①：评分>=8.0且评论超过10w+的书籍； ②：只有评论超过10w+的书； ③：按书评数量排名TOP8；经过对比，我发现一些值得一读再读的名著总是在列表中，而且列表中的大部分书籍都是开卷即有益的好

原创 2022-06-07 09:51:14 · 234 阅读 · 0 评论
R语言Bootstrap的岭回归和自适应LASSO回归可视化

原文链接：http://tecdat.cn/?p=22921拟合岭回归和LASSO回归，解释系数，并对其在λ范围内的变化做一个直观的可视化。# 加载CBI数据# 子集所需的变量（又称，列）CBI_sub <- CBI# 重命名变量列(节省大量的输入)names(CBI_sub)[1] <- "cbi"# 只要完整案例，删除缺失值。CBI_sub <- CBI_sub[complete.cases(CBI_sub),]#现在检查一下CBI_sub里面的内容

原创 2021-07-01 17:58:49 · 1329 阅读 · 0 评论
调查数据倾听大学生外卖需求

原文链接：http://tecdat.cn/?p=22898原文出处：拓端数据部落公众号随着社会经济的发展，饮食生活已经逐渐融入了我们的日常生活世界，每天都不可避免地在 "吃 "的问题上有更多的考虑，吃好、吃多已经不再是我们的烦恼。要点提示外卖的盛行已经成为各地的普遍现象，越来越多的大学生喜欢呆在宿舍里，用电脑来解决一天的生活问题，外卖成了很多大学生的饮食选择。本文通过问卷调查，分析了大学生对外卖的看法。主题一外卖每餐花费调查对象以本科生为主，占6

原创 2021-06-30 17:39:36 · 716 阅读 · 0 评论
R语言用igraph绘制网络图可视化

原文链接：http://tecdat.cn/?p=22886这篇文章假定你已经知道如何用igraph库建立一个基本的网络图。基本上，igraph允许将几种类型的输入转化为一个图形对象，可以使用plot()函数绘制，如下所示。# 创建数据network <- graph(data , mode='undirected')# 默认网络plot(network)自定义节点功能节点可以修改几个参数，这些参数都以顶点开始。顶点是igraph语言中的一个节点。主

原创 2021-06-29 15:39:52 · 1844 阅读 · 0 评论
R语言投资组合优化求解器：条件约束最优化、非线性规划求解

原文链接：http://tecdat.cn/?p=22853本文将介绍R中可用于投资组合优化的不同求解器。通用求解器通用求解器可以处理任意的非线性优化问题，但代价可能是收敛速度慢。默认包包stats（默认安装的基本R包）提供了几个通用的优化程序。optimize()。用于区间内的一维无约束函数优化（对于一维求根，使用uniroot()）。f <- function(x) exp(-0.5*x) * sin(10*pi*x)f(0.5)result &.

原创 2021-06-24 19:04:05 · 2119 阅读 · 2 评论
R语言多元时间序列滚动预测：ARIMA、回归、ARIMAX模型分析

原文链接：http://tecdat.cn/?p=22849原文出处：拓端数据部落公众号当需要为数据选择最合适的预测模型或方法时，预测者通常将可用的样本分成两部分：内样本（又称 "训练集"）和保留样本（或外样本，或 "测试集"）。然后，在样本中估计模型，并使用一些误差指标来评估其预测性能。如果这样的程序只做一次，那么这被称为 "固定原点 "评估。然而，时间序列可能包含离群值，一个差的模型可能比更合适的模型表现得更好。为了加强对模型的评估，我们使用了一种叫做 "滚动原点 "的方法。滚动原.

原创 2021-06-23 17:41:36 · 4602 阅读 · 0 评论
R语言k-means聚类、层次聚类、主成分（PCA）降维及可视化分析鸢尾花iris数据集

原文链接：http://tecdat.cn/?p=22838问题：使用R中的鸢尾花数据集(a)部分：k-means聚类使用k-means聚类法将数据集聚成2组。画一个图来显示聚类的情况使用k-means聚类法将数据集聚成3组。画一个图来显示聚类的情况(b)部分：层次聚类使用全连接法对观察值进行聚类。使用平均和单连接对观测值进行聚类。绘制上述聚类方法的树状图。问题01：使用R中建立的鸢尾花数据集。(a)：k-means聚类讨论和/或考虑对数据进行标准化。....

原创 2021-06-22 17:05:53 · 2680 阅读 · 0 评论
R语言用Hessian-free 、Nelder-Mead优化方法对数据进行参数估计

原文链接：http://tecdat.cn/?p=22828原文出处：拓端数据部落公众号主要优化方法的快速概述我们介绍主要的优化方法。我们考虑以下问题.无导数优化方法Nelder-Mead方法是最著名的无导数方法之一，它只使用f的值来搜索最小值。过程：设置初始点x1,...,xn+1 对点进行排序，使得f(x1)≤f(x2)≤⋯≤f(xn+1)。计算xo作为x1,...,xn的中心点。反射计算反射点xr=xo+α（xo-xn+1）。如果f(x1)≤f(x...

原创 2021-06-21 18:38:15 · 754 阅读 · 0 评论
R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

原文链接:http://tecdat.cn/?p=22813本教程为读者提供了使用频率学派的广义线性模型（GLM）的基本介绍。具体来说，本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用，以及模型评估的方法。本教程使用教育数据例子进行模型的应用。此外，本教程还简要演示了用R对GLM模型进行的多层次扩展。最后，还讨论了GLM框架中的更多分布和链接函数。本教程包含以下结构。1. 准备工作。2. 介绍GLM。3. 加载教育数据。4. 数据准备。5. 二元（伯努利）Logisti..

原创 2021-06-18 15:27:18 · 3940 阅读 · 0 评论
Python风险价值计算投资组合VaR（Value at Risk ）、期望损失ES（Expected Shortfall）

原文链接：http://tecdat.cn/?p=22788Python计算获得多资产投资组合的风险度量。关键概念随着价格的变动，投资经理所持有的市场价值也会发生变化。后者就是所谓的市场风险，衡量它的最流行的方法之一是定义为风险价值。风险本身被看作是实际收益和期望收益之间的差异，两者可能不同。如果它们相等，投资被认为是无风险的。同时，它不能有违约风险，也不能有再投资风险。请注意，期望收益不是投资者认为他们将获得的收益，而是反映了所有经济情况下所有可能结果的平均值。风险价值（VaR）告诉.

原创 2021-06-16 17:30:34 · 5884 阅读 · 4 评论
R语言用相关网络图可视化分析汽车配置和饮酒习惯

原文链接：http://tecdat.cn/?p=22772我们经常使用的一个关系性指标是相关性。通过可以利用数据框架和绘图来帮助探索相关关系。本文先创建了相关关系的关系数据框，然后绘制了关系结构。库我们将使用以下库。library(tidyverse)library(igraph)基本方法给定一个由数字变量组成的数据框d，我们想在网络中绘制其相关性，这里有一个基本方法。# 创建相关数据框d %>% correlate() %>% #...

原创 2021-06-15 17:34:10 · 589 阅读 · 0 评论
R语言 PCA(主成分分析)，CA(对应分析)夫妻职业差异和马赛克图可视化

原文链接：http://tecdat.cn/?p=22762主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法，其最主要的用途在于“降维”，通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目，与因子分析类似。所谓降维，就是把具有相关性的变量数目减少，用较少的变量来取代原先变量。如果原始变量互相正交，即没有相关性，则主成分分析没有效果。对应分析（CA）是适用于..

原创 2021-06-11 17:55:33 · 1645 阅读 · 3 评论
R语言Lasso回归模型变量选择和糖尿病发展预测模型应用（含练习）

原文链接：http://tecdat.cn/?p=22721Lease Absolute Shrinkage and Selection Operator（LASSO）在给定的模型上执行正则化和变量选择。根据惩罚项的大小，LASSO将不太相关的预测因子缩小到（可能）零。因此，它使我们能够考虑一个更简明的模型。在这组练习中，我们将在R中实现LASSO回归。练习1加载糖尿病数据集。这有关于糖尿病的病人水平的数据。数据为n = 442名糖尿病患者中的每个人获得了10个基线变量、年龄、性别、...

原创 2021-06-08 17:27:45 · 1986 阅读 · 0 评论
R语言社区主题检测算法应用案例

原文链接：http://tecdat.cn/?p=5658使用R检测相关主题的社区创建主题网络对于Project Mosaic，我正在通过分析抽象文本和共同作者社交网络来研究UNCC在社会科学和计算机和信息学方面的出版物。我遇到的一个问题是：如何衡量主题之间的关系（相关性）？特别是，我想创建一个连接类似主题的网络可视化，并帮助用户更轻松地浏览大量主题（在本例中为10......

原创 2019-06-17 15:47:19 · 1550 阅读 · 0 评论
拓端tecdat|R语言:状态空间模型和卡尔曼滤波预测酒精死亡人数时间序列

原文链接：http://tecdat.cn/?p=22665摘要状态空间建模是一种高效、灵活的方法，用于对大量的时间序列和其他数据进行统计推断。本文介绍了状态空间建模，其观测值来自指数族，即高斯、泊松、二项、负二项和伽马分布。在介绍了高斯和非高斯状态空间模型的基本理论后，提供了一个泊松时间序列预测的说明性例子。最后，介绍了与拟合非高斯时间序列建模的其他方法的比较。绪论状态空间模型为几种类型的时间序列和其他数据的建模提供了一个统一的框架。结构性时间序列、自回归综合移动平均模型（ARIM..

原创 2021-06-02 17:13:07 · 821 阅读 · 1 评论
拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解（STL）进行时间序列异常检测

原文链接：http://tecdat.cn/?p=22632这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法。我们将对一种叫做STL的算法进行研究，STL是 "使用LOESS(局部加权回归)的季节-趋势分解 "的缩写，以及如何将其应用于异常检测。其基本思想是，如果你有一个有规律的时间序列，你可以通过STL算法运行该序列，并分离出规律的模式。剩下的是 "不规则的"，而异常检测相当于判定不规则性是否足够大。例子：航空乘客，1949-1960让我们在数据集上运行该算法..

原创 2021-06-01 15:24:56 · 1723 阅读 · 0 评论
拓端tecdat|R语言极值推断：广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法

原文链接：http://tecdat.cn/?p=22566本文是极端值推断的内容。我们在广义帕累托分布上使用最大似然方法。极大似然估计在参数模型的背景下，标准技术是考虑似然的最大值（或对数似然）。考虑到一些技术性假设，如，的某个邻域，那么其中表示费雪信息矩阵。在此考虑一些样本，来自广义帕累托分布，参数为，因此如果我们解决极大似然的一阶条件，我们得到一个满足以下条件的估计这种渐进正态性的概念如下：如果样本的真实分布是一个具有参数的GPD，那么，....

原创 2021-05-24 16:34:25 · 2142 阅读 · 3 评论
拓端tecdat|新零售消费者特征的数据视野

原文链接：http://tecdat.cn/?p=22557新零售,顾名思义,就是与传统零售完全不同的,一种新的零售模式。要点提示其价值在于最大程度提升全社会流通零售业的运转效率。建立一个以消费者体验为中心的数据驱动的零售形态。现在新零售已经渗透到我们生活到方方面面，如无人便利店、无人售卖机、小米之家、永辉生活、便利蜂、盒马鲜生、星巴克、新零售智慧门店等。主题一不同年龄消费者对新零售商品和服务渠道的信赖程度不同年龄的消费者对......

原创 2021-05-23 14:50:43 · 504 阅读 · 0 评论
拓端tecdat|R语言在地图上绘制散点饼图可视化

原文链接：http://tecdat.cn/?p=22537我们在ggplot2中制作的饼实际上是一个条形图转换为极坐标。如果我们想制作一个像上面截图那样的地图，这就很困难了。但在地图上绘制饼图时，它也有自己的缺点。首先，当我们绘制大量的饼图时，它以光栅图像的形式渲染，使得它的渲染速度很慢。本文创建了一个封装函数，使其更容易绘制一组饼图。例如，假设我们有以下数据。set.seed(123)long <- rnorm(50, sd=100)lat <- rnorm(.

原创 2021-05-20 22:12:04 · 1150 阅读 · 2 评论
拓端tecdat|使用R语言进行多项式回归、非线性回归模型曲线拟合

原文链接：http://tecdat.cn/?p=22531对于线性关系，我们可以进行简单的线性回归。对于其他关系，我们可以尝试拟合一条曲线。曲线拟合是构建一条曲线或数学函数的过程，它对一系列数据点具有最佳的拟合效果。使用示例数据集#我们将使Y成为因变量，X成为预测变量#因变量通常在Y轴上plot(x,y,pch=19)看起来我们可以拟合一条曲线。#拟合一次多项式方程。fit <- lm(y~x)#二次fit2 <- lm(....

原创 2021-05-19 10:36:20 · 2229 阅读 · 0 评论
拓端tecdat|R语言主成分分析（PCA）葡萄酒可视化：主成分得分散点图和载荷图

原文链接：http://tecdat.cn/?p=22492我们将使用葡萄酒数据集进行主成分分析。数据数据包含177个样本和13个变量的数据框；vintages包含类标签。这些数据是对生长在意大利同一地区但来自三个不同栽培品种的葡萄酒进行化学分析的结果：内比奥罗、巴贝拉和格里格诺葡萄。来自内比奥罗葡萄的葡萄酒被称为巴罗洛。这些数据包含在三种类型的葡萄酒中各自发现的几种成分的数量。# 看一下数据head(no)输出转换和标准化数据对数转换和标准化，将所有变...

原创 2021-05-14 18:05:06 · 6319 阅读 · 4 评论
拓端tecdat|R语言生态学建模：增强回归树（BRT）预测短鳍鳗生存分布和影响因素

原文链接：http://tecdat.cn/?p=22482引言本文是一个简短的教程，在R中拟合BRT（提升回归树）模型。我们的目标是使BRT（提升回归树）模型应用于生态学数据，并解释结果。本教程的目的是帮助你学习如何在R中开发一个BRT模型。示例数据有两套短鳍鳗的记录数据。一个用于模型训练（建立），一个用于模型测试（评估）。在下面的例子中，我们加载的是训练数据。存在（1）和不存在（0）被记录在第2列。环境变量在第3至14列。> head(train)拟合..

原创 2021-05-13 18:29:11 · 6030 阅读 · 7 评论
拓端tecdat|R语言经济学：动态模型平均(DMA)、动态模型选择(DMS)预测原油价格时间序列

原文链接：http://tecdat.cn/?p=22458简介本文提供了一个经济案例。着重于原油市场的例子。简要地提供了在经济学中使用模型平均和贝叶斯方法的论据，使用了动态模型平均法（DMA），并与ARIMA、TVP等方法进行比较。希望对经济和金融领域的从业人员和研究人员有用。动机事实上，DMA将计量经济学建模的几个特点结合在一起。首先，最终预测是通过模型平均化从几个回归模型中产生的。其次，该方法是贝叶斯方法，也就是说，概率是以相信程度的方式解释的。例如，对时间t的DMA预测只基于..

原创 2021-05-11 17:21:55 · 1581 阅读 · 2 评论
拓端tecdat|R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

原文链接：http://tecdat.cn/?p=22448今天，我们将看下bagging 技术里面的启发式算法。通常，bagging 与树有关，用于生成森林。但实际上，任何类型的模型都有可能使用bagging 。回顾一下，bagging意味着 "boostrap聚合"。因此，考虑一个模型m：X→Y。让表示从样本中得到的m的估计现在考虑一些boostrap样本，，i是从{1,⋯,n}中随机抽取的。基于该样本，估计。然后抽出许多样本，考虑获得的估计值的一致性，使用多数规则，或使用概率.

原创 2021-05-10 18:14:29 · 1172 阅读 · 3 评论
拓端tecdat|R语言多项式回归拟合非线性关系

原文链接：http://tecdat.cn/?p=22438多项式回归是独立x变量和因果y变量之间的非线性关系。当我们分析有一些弯曲的波动数据时，拟合这种类型的回归是很关键的。在这篇文章中，我们将学习如何在R中拟合和绘制多项式回归数据。我们在这个回归模型中使用了lm()函数。虽然它是一个线性回归模型函数，但通过改变目标公式类型，lm()对多项式模型也适用。本教程包括准备数据拟合模型寻找最佳拟合源代码准备数据我们首先要准备测试数据，如下所示。function(x...

原创 2021-05-08 18:29:24 · 1593 阅读 · 0 评论
拓端tecdat|R语言生存分析: 时变竞争风险模型分析淋巴瘤患者

原文链接：http://tecdat.cn/?p=22422在本文中，我们描述了灵活的竞争风险回归模型。回归模型被指定为转移概率，也就是竞争性风险设置中的累积发生率。该模型包含Fine和Gray（1999）的模型作为一个特例。这可以用来对次分布危险的比例假设做拟合度测试（Scheike和Zhang 2008）。还可以为预测的累积发病率曲线构建置信区间。我们将这些方法应用于Pintilie（2007）的滤泡细胞淋巴瘤数据，其中竞争风险是疾病复发和没有复发的死亡。工作实例：滤泡细胞淋巴瘤研究..

原创 2021-05-07 18:55:48 · 1383 阅读 · 1 评论
拓端tecdat|R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险

原文链接：http://tecdat.cn/?p=22410本文的目的是完成一个逻辑回归分析。使你对分析步骤和思维过程有一个基本概念。library(tidyverse)library(broom)这些数据来自一项正在进行的对镇居民的心血管研究。其目的是预测一个病人是否有未来10年的冠心病风险。该数据集包括以下内容。男性：0=女性；1=男性年龄。教育。1 = 高中以下；2 = 高中；3 = 大学或职业学校；4 = 大学以上当前是否吸烟。0=不吸烟；1=吸烟者 c..

原创 2021-05-06 21:19:48 · 4078 阅读 · 2 评论
拓端tecdat|R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析

原文链接：http://tecdat.cn/?p=22328目前，回归诊断不仅用于一般线性模型的诊断，还被逐步推广应用于广义线性模型领域（如用于logistic回归模型），但由于一般线性模型与广义线性模型在残差分布的假定等方面有所不同，所以推广和应用还存在许多问题。鉴于此，本文使用图表考察logistic模型的拟合优度。如何处理从逻辑回归中得到的残差图？为了更好地理解，让我们考虑以下数据集glm(Y~X1+X2,family=binomial)如果我们使用R的诊断图，第一个是残差..

原创 2021-04-26 17:05:57 · 1485 阅读 · 0 评论
拓端tecdat|Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

原文链接：http://tecdat.cn/?p=22319本文建立偏最小二乘法（PLS）回归（PLSR）模型，以及预测性能评估。为了建立一个可靠的模型，我们还实现了一些常用的离群点检测和变量选择方法，可以去除潜在的离群点和只使用所选变量的子集来 "清洗"你的数据。步骤建立PLS回归模型 PLS的K-折交叉验证 PLS的蒙特卡洛交叉验证（MCCV）。 PLS的双重交叉验证(DCV) 使用蒙特卡洛抽样方法进行离群点检测使用CARS方法进行变量选择。使用移动窗口PLS（MW...

原创 2021-04-24 22:45:05 · 4908 阅读 · 12 评论
拓端tecdat|R语言非参数方法：使用核方法和K-NN(k近邻算法)分类预测心脏病数据

原文链接：http://tecdat.cn/?p=22181本文考虑一下基于核方法进行分类预测。注意，在这里，我们不使用标准逻辑回归，它是参数模型。非参数方法用于函数估计的非参数方法大致上有三种：核方法、局部多项式方法、样条方法。非参的函数估计的优点在于稳健，对模型没有什么特定的假设，只是认为函数光滑，避免了模型选择带来的风险；但是，表达式复杂，难以解释，计算量大是非参的一个很大的毛病。所以说使用非参有风险，选择需谨慎。非参的想法很简单：函数在观测到的点取观测值的概率较大，用x附近...

原创 2021-04-23 13:08:35 · 1681 阅读 · 3 评论
拓端tecdat|R语言混合效应逻辑回归（mixed effects logistic）模型分析肺癌数据

原文链接：http://tecdat.cn/?p=22302混合效应逻辑回归用于建立二元结果变量的模型，其中，当数据被分组或同时存在固定和随机效应时，结果的对数几率被建模为预测变量的线性组合。混合效应逻辑回归的例子例1：一个研究人员对40所不同大学的申请进行抽样调查，以研究预测大学录取的因素。预测因素包括学生的高中GPA、课外活动和SAT分数。一些学校的选择性较多或较少，所以每所学校的基准录取概率是不同的。学校层面的预测因素包括学校是公立还是私立，目前学生与教师的比例，以及学校的排...

原创 2021-04-22 18:45:20 · 4126 阅读 · 0 评论
拓端tecdat|R语言进行数据结构化转换：Box-Cox变换、“凸规则”变换方法

原文链接：http://tecdat.cn/?p=22251线性回归时若数据不服从正态分布，会给线性回归的最小二乘估计系数的结果带来误差，所以需要对数据进行结构化转换。在讨论回归模型中的变换时，我们通常会简单地使用Box-Cox变换，或局部回归和非参数估计。这里的要点是，在标准线性回归模型中，我们有但是有时候，线性关系是不合适的。一种想法可以是转换我们要建模的变量，然后考虑这就是我们通常使用Box-Cox变换进行的操作。另一个想法可以是转换解释变量，例如，我们有时会.

原创 2021-04-19 18:39:22 · 855 阅读 · 0 评论
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

原文链接：http://tecdat.cn/?p=22215向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的。但是，经济理论认为，经济变量之间在水平上存在着均衡关系，可以使这些变量差分而平稳。这就是所谓的协整关系。由于知道这种关系可以改善分析的结果，所以希望有一个计量经济学模型，能够捕捉到这种关系。所谓的向量误差修正模型（VECMs）就属于这一类模型。下文介绍了VECMs的基本概念，并在R中估计这种模型。模型和数据向量误差修正模型与VAR模型非常相似，可以有如下形式。其..

原创 2021-04-15 15:32:09 · 2826 阅读 · 0 评论
拓端tecdat|R语言如何用潜类别混合效应模型（lcmm）分析抑郁症状

原文链接：http://tecdat.cn/?p=22206模型背景每一个动态现象都可以用一个潜过程(Λ(t)来描述，这个潜过程在连续的时间t内演化。当对重复测量的标志变量进行建模时，我们通常不会把它看成是一个有误差测量的潜过程。然而，这正是混合模型理论所做的基本假设。潜过程混合模型利用这个框架将线性混合模型理论扩展到任何类型的结果（有序、二元、连续、类别与任何分布）。潜类别混合模型潜类别混合模型在Proust-Lima等人中介绍（2006https://doi.org/10.11...

原创 2021-04-15 14:07:39 · 3405 阅读 · 0 评论
拓端tecdat|R语言多重比较示例：Bonferroni校正法和Benjamini & Hochberg法

原文链接：http://tecdat.cn/?p=21825假设检验的基本原理是小概率原理，即我们认为小概率事件在一次试验中实际上不可能发生。多重比较的问题当同一研究问题下进行多次假设检验时，不再符合小概率原理所说的“一次试验”。如果在该研究问题下只要有检验是阳性的，就对该问题下阳性结论的话，对该问题的检验的犯一类错误的概率就会增大。如果同一问题下进行n次检验，每次的检验水准为α（每次假阳性概率为α），则n次检验至少出现一次假阳性的概率会比α大。假设每次检验独立的条件下该概率可增加至.

原创 2021-04-02 15:47:09 · 7023 阅读 · 0 评论
拓端tecdat|R语言时间序列平稳性几种单位根检验（ADF，KPSS，PP）及比较分析

原文链接：http://tecdat.cn/?p=21757时间序列模型根据研究对象是否随机分为确定性模型和随机性模型两大类。随机时间序列模型即是指仅用它的过去值及随机扰动项所建立起来的模型,建立具体的模型,需解决如下三个问题模型的具体形式、时序变量的滞后期以及随机扰动项的结构。μ是yt的均值；ψ是系数，决定了时间序列的线性动态结构，也被称为权重，其中ψ0=1；{εt}为高斯白噪声序列，它表示时间序列{yt}在t时刻出现了新的信息，所以εt称为时刻t的innovation（新信息）或s.

原创 2021-03-30 16:37:26 · 13105 阅读 · 0 评论
拓端tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

工资模型在劳动经济学领域，收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中，我们将分析横断面工资数据，以期在实践中使用贝叶斯方法，如BIC和贝叶斯模型来构建工资的预测模型。加载包在本实验中，我们将使用dplyr包探索数据，并使用ggplot2包进行数据可视化。我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。数据本实验室将使用的数据是在全国935名受访者中随机抽取的。变量描述

原创 2021-03-29 13:38:01 · 2757 阅读 · 0 评论
拓端tecdat|R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

原文链接：http://tecdat.cn/?p=21602正则化(regularization)正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。该算法速度快，可以利用输入矩阵x中的稀疏性，拟合线性、logistic和多项式、poisson和Cox回归模型。可以通过拟合模型进行各种预测。它还可以拟合多元线性回归。”例子加载数据这里加载了一个高斯(连续Y)的例子。as_data_frame(y)## # A tibble: 1..

原创 2021-03-25 14:53:20 · 1931 阅读 · 0 评论
拓端tecdat|R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例

示例1：使用MCMC的指数分布采样任何MCMC方案的目标都是从“目标”分布产生样本。在这种情况下，我们将使用平均值为1的指数分布作为我们的目标分布。所以我们从定义目标密度开始：target = function(x){ if(x<0){ return(0)} else { return( exp(-x)) }}定义了函数之后，我们现在可以用它来计算几个值（只是为了说明函数的概念）：target(1)[1] 0.3678794target(-

原创 2021-03-22 15:34:38 · 1642 阅读 · 0 评论