统计分析
文章平均质量分 74
一个人旅行*-*
不想当医生的程序员不是个好厨子
展开
-
BKMR运行时报错
当拟合二分类BKMR时,可能会得到如下报错信息:"Error in checkSymmetricPositiveDefinite(H, name = “H”) : H must be positive definite"或“Error in if (log(runif(1)) <= logalpha) { : missing value where TRUE/FALSE needed”一个通常有效的解决方案是在kmbayes函数中设置参数 "est.h = TRUE"。这样做会导致MC原创 2022-03-28 14:39:06 · 2927 阅读 · 12 评论 -
Bayesian Model Averaging (BMA)的R实现
变量选择模型,贝叶斯模型平均法通过根据近似的后验模型概率对模型类中的最佳模型进行平均,说明了变量选择问题中固有的模型不确定性。它对指定的生物标志物与结果的所有可能组合进行模型估计,并通过其后验模型概率对模型进行加权,同时调整协变量以确定给定变量对结果的影响程度。它产生后置包容概率(Posterior Inclusion Probabilities,PIP值),这是衡量每个变量相对于BMA模型中其他变量对结果的影响。在R中有三个包可以实现BMA:BMA,BMS及BAS实例:set.seed(原创 2022-01-15 16:24:41 · 4300 阅读 · 0 评论 -
结构方程模型二-R实现
其实有些时候,我们将SEM想的过于复杂了,其实操作起来还是较容易上手的,不过建模过程中需要我们根据自己试验设计等自行建立一个因子间的关系模型,然后对这个模型进行反复调试,直至达到自己满意的结果为止,这就是SEM的难点,因为构建这个关系模型需要丰富的经验,但是有没有什么入门比较快的法门呢,当然是有的——借鉴前人的文献!!!一般建模前,我们会通过一些相关性分析、VIF、CCA/RDA等筛选一下用于建模的因子,去除不必要的因子,使得起始模型的建立更简单一些,也可以通过相关性结合研究实际初步评估一下直接作用和间接作转载 2021-11-17 23:44:48 · 5505 阅读 · 4 评论 -
ICC分析的R实现
intraclass correlation coefficient (ICC)中文叫做同类相关系数。为什么要做icc呢。比如在标注的过程中,我们要衡量这个人标注的怎么样,我们可以这样做:1.从总体样本中选择N个样本。每一个样本都由两个人标注,然后检查两个人标注的差别有多大。2.还是N个样本,一个人标注完了,第二天再让他标注一次,检查两次标注的差别有多大。上面1过程就是组间差异性,2就是组内差异性。icc可以用来衡量这种差异性。计算公式如下,比较复杂这个过程可以用R语言实现。工具包:irr转载 2021-11-16 16:03:32 · 4333 阅读 · 1 评论 -
nonnegative matrix factorization (NMF)的R实现
非负矩阵分解(NMF)是一种最新的特征提取算法,与主成分分析(PCA)或独立成分分析(ICA)类似,非负矩阵分解(NMF)的目的是使用有限的基础成分来解释观察到的数据,这些成分组合在一起时尽可能准确地接近原始数据。换句话来说,NMF是一种降维方法。NMF的显著特点是,代表基础成分的矩阵以及混合系数矩阵都被限制为非负项,并且没有对基础成分施加正交性或独立性的限制。当有许多属性,并且这些属性是模糊的或具有较弱的可预测性时,NMF是有用的。通过组合属性,NMF可以产生有意义的模式、话题或主题。无标签的文档或原创 2021-11-12 21:04:02 · 2394 阅读 · 0 评论 -
分割数据集为训练集,测试集及验证集的R实现
Using ‘splitTools’ (r-project.org)IntroductionsplitToolsis a fast, lightweight toolkit for data splitting.Its two main functionspartitionandcreate_foldssupport data partitioning (e.g.into training, validation and test), creating folds f...原创 2021-11-12 20:47:48 · 7724 阅读 · 2 评论 -
gWQS包的使用
介绍加权量化和(WQS)回归是一种统计模型,用于环境暴露、表观/基因组学和代谢组学研究等常见的高维数据集的多变量回归。该模型构建了一个加权指数,估计所有预测变量对结果的混合效应,然后可以在带有相关协变量的回归模型中使用,以检验该指数与因变量或结果的关联。然后,每个单独的预测因素对整体指数效应的贡献可以通过模型分配给每个变量的权重的相对强度来评估。gWQS包将WQS回归扩展到具有连续和分类结果的应用中,并实现了随机子集WQS和重复保持WQS。在实践中,分析的主要产出将是参数估计和预测变量的总体指数效应翻译 2021-09-07 15:00:23 · 11628 阅读 · 34 评论 -
Quantile g-computation的介绍及R实现
介绍qgcomp是一个实现g-computation的软件包,用于分析暴露混合物的影响。分位数g-computation产生了所有暴露同时增加一个分位数的效果的估计。因此,它估计的 "混合物效应 "对研究暴露混合物(如空气污染、饮食和水污染)很有用。 使用为因果效应估计而开发的术语,分位数g计算估计了边际结构模型的参数,该模型描述了在对所有暴露进行联合干预的情况下预期潜在结果的变化,可能以混杂因素为条件。在可交换性、因果一致性、阳性、无干扰和正确的模型规范的假设下,这个模型产生了干预对整个混合物的因果效翻译 2021-08-24 16:28:37 · 27925 阅读 · 16 评论 -
Linear Growth curve model的R实现
Chapter 3 - Linear Growth ModelOverviewThis tutorial walks through the fitting of linear growth modeling in several different frameworks (e.g., multilevel modeling framework, structural equation modeling framework), and demonstrates these models using翻译 2021-08-21 09:27:21 · 1152 阅读 · 0 评论 -
热图添加行标签
# data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5# a;6.6;20.9;100.1;600.0;5.2# b;20.8;99.8;700.0;3.7;19.2# c;100.0;800.0;6.2;21.4;98.6# d;900;3.3;20.3;101.1;10000"## data <- read.table(text=data_ori, header=T, row.names=1, sep=";", quote="")# row_.原创 2021-08-21 09:06:42 · 1082 阅读 · 0 评论 -
计算检出率的R实现
Combining thelength()andwhich()commands gives a handy method of counting elements that meet particular criteria.b <- c(7, 2, 4, 3, -1, -2, 3, 3, 6, 8, 12, 7, 3)bLet’s count the 3s in the vector b.count3 <- length(which(b == 3))count3[1] 4...原创 2021-08-20 21:39:46 · 734 阅读 · 0 评论 -
Hosmer-Lemeshow test及R实现
Calculation of the Hosmer-Lemeshow statistic proceeds in 6 steps,[2]using the caffeine data for 170 volunteers as an example.1. Compute p(success) for all n subjectsCompute p(success) for each subject using the coefficients from the logistic regressio.原创 2021-08-20 16:48:22 · 16222 阅读 · 4 评论 -
条件logistic回归及R实现
library(survival)resp <- levels(logan$occupation)n <- nrow(logan)indx <- rep(1:n, length(resp))logan2 <- data.frame(logan[indx,], id = indx, tocc = factor(rep(resp, each=n)))logan2$case <- (log.原创 2021-08-20 09:57:36 · 10224 阅读 · 6 评论 -
nhanesA包的介绍及使用
Introducing nhanesAChristopher J. Endres2021-01-30BackgroundnhanesA was developed to enable fully customizable retrieval of data from the National Health and Nutrition Examination Survey (NHANES). The survey is conducted by the National Center for翻译 2021-08-14 22:34:35 · 7720 阅读 · 9 评论 -
逆概率加权法(Inverse Probability Weighting, IPW)的原理及R实现
逆概率加权(IPW)是一种用于解释由于非随机选择观测值或人群信息的非随机缺失而造成的缺失和选择偏差的方法。原理:这种方法可以通过对观察值的加权来修正分析,使其具有被选中的概率。IPW是基于这样一个假设,即整个研究人群都有可以预测纳入概率(非遗漏)的个体信息,因此,在考虑到这些信息后,我们可以仅从非遗漏的观察值开始对整个目标人群进行推断。计算的程序如下:首先,我们考虑整个研究人群,用逻辑回归模型计算非失访信息的概率,其中响应是非失访,协变量是其可能的预测因素。每个受试者的权重是由预测概率的倒数给出的。然后使用原创 2021-08-14 22:12:22 · 46372 阅读 · 6 评论 -
Mantel test的R实现
如何在R中执行Mantel测试?Mantel测试测量通常包含距离测量的两个矩阵之间的相关性。 Mantel测试是一种测试空间自相关的方法。 在ade4库使用功能,我们可以在河进行Mantel检测要下载和加载这个库,输入install.packages(“ade4”),然后library(ade4)。 在其他R库中还有其他Mantel测试功能,我们对这个库的选择不应该被视为任何方式的认可。让我们看一个例子。 我们的数据集中, 臭氧 ,含有在聚合一个月以上洛杉矶地区32的位置臭氧测量。 该数据集包括的站号转载 2021-08-02 16:37:25 · 5909 阅读 · 0 评论 -
出生队列研究中的暴露组学应用
Applying the exposome concept in birth cohort research- a review类别:统计学习方法 时间:202106301.背景大量可改善的疾病风险因素还缺乏探讨;疾病风险因素间的相关关系及与健康结局的关联还未可知;出生队列研究为探讨生命早期暴露组的研究提供了很好的机遇。研究目的:提供暴露组分析方法及优缺点,剔除关于暴露组研究中的挑战。2.暴露组学(The Exposome)概念于2005年提出,三个方面:1)广义外暴露,如大气,城市原创 2021-06-30 16:50:48 · 2708 阅读 · 0 评论 -
missForest的R实现
在R中,能处理缺失值的包有很多,比如VIM, mice, Amelia, missForest, Hmisc, mi,等等,那为什么本文偏偏选择missForest作为处理包呢?这是因为missForest可以处理包含连续变量以及分类变量的缺失值,有很多软件或包在进行插补缺失值的时候,通常识别不了分类变量,如果你有一列二分变量是用“是”和“否”作为答案的,那么值通常是0和1,或1和2。这些软件或包在对这一列变量的缺失数据进行插补的时候,可能出现小数 低于0或1的数值 大于1或2的数值而我们需要转载 2021-06-29 22:11:35 · 3358 阅读 · 2 评论 -
NLinteraction包的使用
可以与BKMR包联用,估计环境混合物的影响及环境化学物暴露间的交互作用,BKMR包可探讨化学物间交互作用,但无法提供交互作用的PIP值,NLinteracton包可弥补这一缺陷。安装library(devtools)install_github(repo = "jantonelli111/NLinteraction")library(NLinteraction)构建模拟数据集n = 100p = 10pc = 1X = matrix(rnorm(n*p), n, p)C原创 2021-05-14 22:45:08 · 1854 阅读 · 4 评论 -
线性混合模型R实现的更多实例
library(nlme)## Warning: package 'nlme' was built under R version 3.6.3library(lme4)## Warning: package 'lme4' was built under R version 3.6.3## Loading required package: Matrix## ## Attaching package: 'lme4'## The following object is m.原创 2021-04-20 16:25:59 · 2719 阅读 · 3 评论 -
Deletion/Substitution/Addtion(DSA)的R实现
partDSAis a novel tool for generating a piecewise constant estimation sieve of candidate estimators based on an intensive and comprehensive search over the entire covariate space. The strength of this algorithm is that it builds'and'and'or'statements....原创 2021-03-30 16:30:16 · 1644 阅读 · 6 评论 -
Logistic回归的拟合优度图R实现
判断Logistic拟合优度时,除了常用的统计指标,如似然比检验,Pseudo R^2,Hosmer-Lemeshow Test,详见我前面的博文 logistic回归模型评估-R实现,图示法展示logistic回归的拟合优度是更为直观的办法。R的languageR包中的函数plot.logistic.fit.fnc()功能可以实现该功能。该函数将观察到的比例与平均预测概率作图。 拟合效果良好时,点应大致位于一条直线上。具体函数用法为:plotlogistic.fit.fnc(x, data,原创 2020-12-22 19:12:45 · 6422 阅读 · 0 评论 -
ADONIS、ANOSIM、Mangel_test、MRPP
常规的T检验、方差分析等,可以用于比较组间变量的差异水平。由于这些常规方法都是对于1-2个特定变量而言的,那么如果我们想比较所有变量整体的差异,或者说各组对象间在变量组成上是否存在较大的不同,应该怎样做呢?多变量情形下,可能会首先想到使用PCA等排序分析方法去降维,然后在低维空间的排序图中观测对象的离散程度,组间区分是否明显等。然后我们首先看下面这个PCA。排序图中,显示setosa与virginica或versicolor之间区分明显,virginica和versicolor之间存在一定程度的重叠。这种组转载 2020-11-30 16:02:32 · 11219 阅读 · 0 评论 -
不同矫正批次效应方法的比较
前面我在生信技能树推文:你确定你的差异基因找对了吗?提出了文章的转录组数据的60个样品并没有按照毒品上瘾与否这个表型来区分,而是不同人之间的异质性非常高,这个时候我提出来了一个解决方案,就是理论上就可以把人当做是一个批次效应,使用北京大学李程课题组开发的sva包的combat函数,把这样的效应去除一下,接着再找差异。当然了,去除批次效应的方法,肯定不止这一个,现在让我们列举并且比较一下吧!首先载入数据并且包装一个PCA可视化函数rm(list = ls()) ## 魔幻操作,一键清空~...转载 2020-11-23 09:01:58 · 3507 阅读 · 0 评论 -
Pearson相关系数, Spearman相关系数,Kendall相关系数
三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1. person correlation coefficient(皮尔森相关性系数)公式如下:统计学之三大相关性系数(pearson、spearman、kendall)重点关注第一个等号后面的公式,最后面的是推导计算,暂时不用管它们。看到没有,两个变量(X, Y)的皮尔森相关性系数(转载 2020-11-18 10:26:30 · 9675 阅读 · 1 评论 -
岭回归,Lasso回归及弹性网络回归原理及R实现
The standard linear model (or the ordinary least squares method) performs poorly in a situation, where you have a large multivariate data set containing a number of variables superior to the number of samples.A better alternative is thepenalized regress.原创 2020-10-24 09:53:48 · 18412 阅读 · 11 评论 -
logistic回归模型评估-R实现
Logistic回归是一种用于探索分类响应变量与一个或多个分类或连续预测变量之间的关系的方法。 该模型通常以以下格式表示,其中β表示参数,x表示自变量。log(odds)=β0+β1∗x1+...+βn∗xnLogistic Regression Example将参考数据集分为训练集和测试集library(caret)data(GermanCredit)Train <- createDataPartition(GermanCredit$Class, p=0.6, list=FAL翻译 2020-10-24 09:29:03 · 15173 阅读 · 0 评论 -
Cox回归之变量筛选的R实现 (Stepwise Variable Selection in R)
参考链接:http://finzi.psych.upenn.edu/R/library/My.stepwise/html/My.stepwise.coxph.htmlpackageinstall.packages("My.stepwise")UsageMy.stepwise.coxph(Time = NULL, T1 = NULL, T2 = NULL, Status = NULL, variable.list, in.variable = "NULL", data, sle = 0.原创 2020-08-04 10:32:52 · 8988 阅读 · 7 评论 -
ConsensusClustering及R实现
一、定义及K值选择一致性聚类通过改变聚类的数据集(里面的数据全部从原始数据中抽取,也可以理解为是原始数据的子集),通过考量任意一个数据在不同样本中聚类表现的一致性来确定聚类的参数是否合适。第一步:从原始数据中随机抽取子集,当然子集的规模不能太小,最好是原始数据集的半数以上(这是我自己理解的,数据太少聚类的话没有意义),子集要尽量多,以确保里面的每一个数据都多次被取到(100次以上),然后,我们选择任意一种聚类方法,可以使K-means或者层次聚类,对所有的数据子集分别聚类。...原创 2020-07-23 22:12:22 · 13042 阅读 · 1 评论 -
R语言重现STAMP结果图
来源:公众号红皇后学术我们通常使用的STAMP的结果主要就是两组数据之间差异性检验的被称作Extended error bar(扩展柱状图)的图像。由于STAMP的结果图相对固定,可修改的图像参数有限,经常会遇到一些问题,比如靶标物种或功能基因名字过程就会导致显示不全,在与其它图像拼接成一副图的时候也会出现字号太小导致看不清楚的问题。数据准备这里我将使用一套同一环境位点水体和沉积物16S扩增子测序的PICRUSt功能预测结果作为示例。选择的是KEGG L2水平的功能预测的相对丰度数据。原创 2020-07-23 19:46:03 · 3150 阅读 · 9 评论 -
WGCNA分析及实现
原文链接WGCNA基本概念 基本分析流程 WGCNA包实战 输入数据和参数选择 安装WGCNA WGCNA实战 数据读入 软阈值筛选 经验power (无满足条件的power时选用) 网络构建 层级聚类树展示各个模块 绘制模块之间相关性图 可视化基因网络 (TOM plot) 导出网络用于Cytoscape 关联表型数据 分步法展示每一步都做了什么 Reference:1.WGCNA基本概念加权基因共表达网络分析 (转载 2020-07-20 19:49:07 · 4836 阅读 · 3 评论 -
有向循环图的绘制(DAG)
绘图网站http://www.dagitty.net/R包:dagitty;ggdagis a nice R package based on dagitty but tidyverse-compatible and with much better plotting functionality.原创 2020-07-20 19:42:44 · 3598 阅读 · 0 评论 -
机器学习中的目标函数、损失函数、代价函数的区别
转载自:https://www.zhihu.com/question/52398145基本概念:损失函数:计算的是一个样本的误差代价函数:是整个训练集上所有样本误差的平均目标函数:代价函数 + 正则化项实际应用:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,举例说明:上面三个图的曲线函数依次为f1(x),f2(x),f3(x),我们想用这三个函数分别来拟合真实值Y。我们给定x,这三个函数都会输出一个f(X),这个输出的f(X)与真实值Y可能是相同的转载 2020-06-15 15:20:37 · 383 阅读 · 0 评论 -
结构方程模型(SEM)及其R实现
来源:公众号:红皇后学术参考资料:https://jslefche.github.io/sem_book/一、基本流程其实单独的做一个SEM的分析并不难,有很多的R包都可以实现,这个SEM的困难之处在于它不像其它的分析,输入数据之后得到一个结果就完事了。SEM需要分析人员首先自行建立一个因子之间的关系模型,之后使用SEM对该模型进行分析,根据结果评估模型的效果,之后不断的对模型进行调整,随后重复“调整-评估”这一循环,直至结果满意为止。了解了这个基本的过程之后,我就觉得我写的这篇推文应该转载 2020-06-15 14:18:01 · 58481 阅读 · 6 评论 -
一些基础R函数整理
1.mean计算均值,使用方法是mean(x, trim=0,na.rm=FALSE)其中x是对象,如有异常值,需要设置参数trim来调整纳入计算的样本数据来实现剔除异常值的效果。2.weighted.mean()计算数据的加权平均值weighted.mean(x,w,…, narm=FALSE)其中x是数值向量,w是数据的权,不同 x的维数相同,该函数可以对矩阵和数组计算加权平均值,但对数据框不适用3.数据标准化:preProcess()函数:数据标准化包(caret包)函数基本形原创 2020-06-10 14:11:55 · 1406 阅读 · 0 评论 -
聚类分析及R实现
一、聚类分析的概念聚类分析时一种原理简单、应用广泛的数据挖掘技术。聚类分析即是把若干事务按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类聚类分析时研究对样本或变量的聚类,在进行聚类时,可使用的方法有很多,而这些方法的选择往往与变量的类型有关,由于数据的来源及测量方法的不同,变量大致可以分为两类:定量变量;定性变量二、聚类算法聚类算法种类繁多,其中绝大多数可以用R实现,下面将选取普及型最广,最实用,最具有代表性的5种聚类算法进行介绍,其中包括:K-均值聚类(K-原创 2020-06-10 11:28:00 · 2155 阅读 · 0 评论 -
标准化方法
高维数据中,由于每个变量单位或标度的不同,进行分析时通常需要将特征转化为一个标准的范围内,即标准化。标准化常见方法:1.z-score标准化2.min-max标准化(min-max normalization),该过程将特征转化,以使它的所有值都落在0~1的范围内...原创 2020-06-10 10:25:38 · 868 阅读 · 0 评论 -
线性混合模型及R实现
原文链接:https://blog.csdn.net/sinat_26917383/article/details/51636011一般统计模型中的横截面回归模型中大致可以分为两个方向:一个是交互效应方向(调节、中介效应)、一个是随机性方向(固定效应、随机效应)。两个方向的选择需要根据业务需求:交互效应较多探究的是变量之间的网络关系,可能会有很多变量,多变量之间的关系;而随机性探究的...转载 2020-03-15 01:10:54 · 10800 阅读 · 0 评论 -
生存分析及R实现
生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法其主要应用领域: Cancer studies for patients survival time analyses(临床癌症上病人生存分析) Sociology for “event-history analysis”(我也不懂) engineering for “failure-t...转载 2020-02-26 13:40:30 · 2641 阅读 · 2 评论 -
Cox比例风险模型与R实现
Cox比例风险模型(cox proportional-hazards model),简称Cox模型是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型Cox模型的基本假设为:在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说...转载 2020-02-26 13:39:30 · 12600 阅读 · 6 评论