![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R语言
文章平均质量分 71
一个人旅行*-*
不想当医生的程序员不是个好厨子
展开
-
R语言Circos图可视化
R语言绘制circos heatmap转载 2022-10-08 14:05:55 · 2621 阅读 · 0 评论 -
R中绘制以特定数值为对称的colorbar
在绘制figure时,有连续性变量赋值时常常要用colorbar表示值的大小,如果有特殊的界值(如Pvalue1),需要将中间值单独设置个颜色作为区分。scales包中的scale_color_gradient2可以解决这个问题。原创 2022-08-09 14:51:44 · 956 阅读 · 0 评论 -
绘制confusion matrix的R实现
在评估分类器效果的时候,除了要呈现sensitivity,specificity,F1score等参数外,还需要图示confusion matrix的结果,以更直观地呈现结果。此为confusion matrix的表格,如何图示呢?先用caret包中的confusionMatrix函数构建matrix。1)自选函数。2)使用内置函数fourfoldplot。3)使用yardstick包......原创 2022-08-09 14:23:37 · 5432 阅读 · 0 评论 -
与2000人2年读完5本R语言经典书籍
来源:公众号:TTfriends# 注意 #本文请按顺序阅读,不要跳读。以下内容为本活动门槛,如果读完或读到中间觉得陌生和无趣,请直接退出本文;如果感到亲切和好奇,请继续阅读活动介绍以及加入方式。最近朱永官院士出了一本新书《英语科技论文写作技巧与实例》,我第一时间入手,然后就忘记了此事,直到一天厉舒祯在快乐磕盐群里推荐此书,我才想起来自己买了。当时也是对自己叹了口气,看来老毛病改不了,以为买了等于看了。怀着这份愧疚,第二天书就到货了,正好最近写论文心里没底,干脆看完它,说转载 2022-04-25 11:10:28 · 711 阅读 · 0 评论 -
ggtreeExtra包的安装及出现的问题
包的安装BiocManager::install("ggtreeExtra")运行过程中可能出现以下报错a.BiocManager版本不匹配,是由于之前安装的BiocManager版本较老,需要更新到当前R版本下的版本。if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install(version = "3.14")b.Unabl原创 2022-04-12 20:37:34 · 1959 阅读 · 1 评论 -
BKMR运行时报错
当拟合二分类BKMR时,可能会得到如下报错信息:"Error in checkSymmetricPositiveDefinite(H, name = “H”) : H must be positive definite"或“Error in if (log(runif(1)) <= logalpha) { : missing value where TRUE/FALSE needed”一个通常有效的解决方案是在kmbayes函数中设置参数 "est.h = TRUE"。这样做会导致MC原创 2022-03-28 14:39:06 · 2899 阅读 · 12 评论 -
Bayesian Model Averaging (BMA)的R实现
变量选择模型,贝叶斯模型平均法通过根据近似的后验模型概率对模型类中的最佳模型进行平均,说明了变量选择问题中固有的模型不确定性。它对指定的生物标志物与结果的所有可能组合进行模型估计,并通过其后验模型概率对模型进行加权,同时调整协变量以确定给定变量对结果的影响程度。它产生后置包容概率(Posterior Inclusion Probabilities,PIP值),这是衡量每个变量相对于BMA模型中其他变量对结果的影响。在R中有三个包可以实现BMA:BMA,BMS及BAS实例:set.seed(原创 2022-01-15 16:24:41 · 4128 阅读 · 0 评论 -
结构方程模型二-R实现
其实有些时候,我们将SEM想的过于复杂了,其实操作起来还是较容易上手的,不过建模过程中需要我们根据自己试验设计等自行建立一个因子间的关系模型,然后对这个模型进行反复调试,直至达到自己满意的结果为止,这就是SEM的难点,因为构建这个关系模型需要丰富的经验,但是有没有什么入门比较快的法门呢,当然是有的——借鉴前人的文献!!!一般建模前,我们会通过一些相关性分析、VIF、CCA/RDA等筛选一下用于建模的因子,去除不必要的因子,使得起始模型的建立更简单一些,也可以通过相关性结合研究实际初步评估一下直接作用和间接作转载 2021-11-17 23:44:48 · 5428 阅读 · 4 评论 -
ICC分析的R实现
intraclass correlation coefficient (ICC)中文叫做同类相关系数。为什么要做icc呢。比如在标注的过程中,我们要衡量这个人标注的怎么样,我们可以这样做:1.从总体样本中选择N个样本。每一个样本都由两个人标注,然后检查两个人标注的差别有多大。2.还是N个样本,一个人标注完了,第二天再让他标注一次,检查两次标注的差别有多大。上面1过程就是组间差异性,2就是组内差异性。icc可以用来衡量这种差异性。计算公式如下,比较复杂这个过程可以用R语言实现。工具包:irr转载 2021-11-16 16:03:32 · 4176 阅读 · 1 评论 -
NHANES数据库的介绍及使用(二)
前一篇介绍了NHANES数据库的加权及数据的下载NHANSE数据库的介绍及使用(一)_Christina-CSDN博客,这一篇主要介绍数据库如何导入软件进行下一步计算合并。例一:以NHANSE数据库的文章为例(Brody DJ, Pratt LA, Hughes J. Prevalence of depression among adults aged 20 and over: United States, 2013-2016. NCHS Data Brief, no 303. Hyattsvill原创 2021-11-12 22:27:02 · 18252 阅读 · 45 评论 -
nonnegative matrix factorization (NMF)的R实现
非负矩阵分解(NMF)是一种最新的特征提取算法,与主成分分析(PCA)或独立成分分析(ICA)类似,非负矩阵分解(NMF)的目的是使用有限的基础成分来解释观察到的数据,这些成分组合在一起时尽可能准确地接近原始数据。换句话来说,NMF是一种降维方法。NMF的显著特点是,代表基础成分的矩阵以及混合系数矩阵都被限制为非负项,并且没有对基础成分施加正交性或独立性的限制。当有许多属性,并且这些属性是模糊的或具有较弱的可预测性时,NMF是有用的。通过组合属性,NMF可以产生有意义的模式、话题或主题。无标签的文档或原创 2021-11-12 21:04:02 · 2356 阅读 · 0 评论 -
多分类RandomForest回归及ROC曲线绘制
require(multiROC)data(iris)head(iris)set.seed(123456)total_number <- nrow(iris)train_idx <- sample(total_number, round(total_number*0.6))train_df <- iris[train_idx, ]test_df <- iris[-train_idx, ]rf_res <- randomForest::randomFores.原创 2021-11-12 20:59:24 · 7454 阅读 · 3 评论 -
分割数据集为训练集,测试集及验证集的R实现
Using ‘splitTools’ (r-project.org)IntroductionsplitToolsis a fast, lightweight toolkit for data splitting.Its two main functionspartitionandcreate_foldssupport data partitioning (e.g.into training, validation and test), creating folds f...原创 2021-11-12 20:47:48 · 7612 阅读 · 2 评论 -
用stringr处理字符串
1. 准备工作 2. 字符串基础 2.1 创建字符串或字符向量 2.2 字符串长度:str_length() 函数 2.3 字符串组合:str_c() 函数 2.4 字符串取子集:str_sub() 函数 2.5 区域设置 3. 用正则表达式进行模式匹配:str_view()函数 3.1 基础匹配 3.2 锚点 3.3 字符类与字符选项 ..转载 2021-09-08 10:32:09 · 1046 阅读 · 0 评论 -
gWQS包的使用
介绍加权量化和(WQS)回归是一种统计模型,用于环境暴露、表观/基因组学和代谢组学研究等常见的高维数据集的多变量回归。该模型构建了一个加权指数,估计所有预测变量对结果的混合效应,然后可以在带有相关协变量的回归模型中使用,以检验该指数与因变量或结果的关联。然后,每个单独的预测因素对整体指数效应的贡献可以通过模型分配给每个变量的权重的相对强度来评估。gWQS包将WQS回归扩展到具有连续和分类结果的应用中,并实现了随机子集WQS和重复保持WQS。在实践中,分析的主要产出将是参数估计和预测变量的总体指数效应翻译 2021-09-07 15:00:23 · 11280 阅读 · 34 评论 -
R中并行计算-多线程运行
First we need a good function that puts some load on the CPU. We’ll use the Boston data set, fit a regression model and calculate the MSE. This will be done 10,000 times.# datadata(Boston)# function - calculate the mse from a model fit on bootstrappe原创 2021-08-25 22:43:03 · 3873 阅读 · 0 评论 -
Quantile g-computation的介绍及R实现
介绍qgcomp是一个实现g-computation的软件包,用于分析暴露混合物的影响。分位数g-computation产生了所有暴露同时增加一个分位数的效果的估计。因此,它估计的 "混合物效应 "对研究暴露混合物(如空气污染、饮食和水污染)很有用。 使用为因果效应估计而开发的术语,分位数g计算估计了边际结构模型的参数,该模型描述了在对所有暴露进行联合干预的情况下预期潜在结果的变化,可能以混杂因素为条件。在可交换性、因果一致性、阳性、无干扰和正确的模型规范的假设下,这个模型产生了干预对整个混合物的因果效翻译 2021-08-24 16:28:37 · 26738 阅读 · 16 评论 -
Linear Growth curve model的R实现
Chapter 3 - Linear Growth ModelOverviewThis tutorial walks through the fitting of linear growth modeling in several different frameworks (e.g., multilevel modeling framework, structural equation modeling framework), and demonstrates these models using翻译 2021-08-21 09:27:21 · 996 阅读 · 0 评论 -
趣味绘图-R绘制爱心及圣诞老人
library(ggwordcloud)#> Loading required package: ggplot2data("love_words_small")head(love_words_small)set.seed(42)ggplot(love_words_small, aes(label = word, size = speakers)) + geom_text_wordcloud() + scale_size_area(max_size = 40) + the..原创 2021-08-21 09:09:26 · 1211 阅读 · 0 评论 -
热图添加行标签
# data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5# a;6.6;20.9;100.1;600.0;5.2# b;20.8;99.8;700.0;3.7;19.2# c;100.0;800.0;6.2;21.4;98.6# d;900;3.3;20.3;101.1;10000"## data <- read.table(text=data_ori, header=T, row.names=1, sep=";", quote="")# row_.原创 2021-08-21 09:06:42 · 1044 阅读 · 0 评论 -
菌群数据预处理-microbiome包
Processing phyloseq objectsInstructions to manipulate microbiome data sets using tools from thephyloseq packageand some extensions from themicrobiome package, including subsetting, aggregating and filtering.使用phyloseq软件包中的工具以及microbiome软件包中的某些扩展来操作微...翻译 2021-08-21 09:05:59 · 2780 阅读 · 2 评论 -
计算检出率的R实现
Combining thelength()andwhich()commands gives a handy method of counting elements that meet particular criteria.b <- c(7, 2, 4, 3, -1, -2, 3, 3, 6, 8, 12, 7, 3)bLet’s count the 3s in the vector b.count3 <- length(which(b == 3))count3[1] 4...原创 2021-08-20 21:39:46 · 721 阅读 · 0 评论 -
气球图R实现(ggballoonplot)
library(ggpubr)# Define color palettemy_cols <- c("#0D0887FF", "#6A00A8FF", "#B12A90FF", "#E16462FF", "#FCA636FF", "#F0F921FF")# Standard contingency table#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::# Read a contingency t...原创 2021-08-20 21:22:39 · 1667 阅读 · 0 评论 -
SIAMCAT的R实现
SIAMCAT: Statistical Inference of Associations between Microbial Communities And host phenoTypesKonrad Zych, Jakob Wirbel, and Georg Zeller1*1EMBL Heidelberg*georg.zeller@embl.deDate last modified: 2020-04-04Contents1About This Vignette 2Int..翻译 2021-08-20 21:03:02 · 971 阅读 · 1 评论 -
R批量读取本地文件
批量读取csv并合并allframes = lapply(1:20,function(x)read.csv(paste(x,'csv',sep='.')))#return listsapply(allframes,nrow)#combine listanswer = do.call(rbind,allframes)原创 2021-08-20 17:00:28 · 1292 阅读 · 0 评论 -
Hosmer-Lemeshow test及R实现
Calculation of the Hosmer-Lemeshow statistic proceeds in 6 steps,[2]using the caffeine data for 170 volunteers as an example.1. Compute p(success) for all n subjectsCompute p(success) for each subject using the coefficients from the logistic regressio.原创 2021-08-20 16:48:22 · 15763 阅读 · 4 评论 -
机器学习的R实现(mlr包)
https://www.analyticsvidhya.com/blog/2016/08/practicing-machine-learning-techniques-in-r-with-mlr-package/Table of ContentGetting Data Exploring Data Missing Value Imputation Feature Engineering Outlier Removal by Capping New Features Machine翻译 2021-08-20 15:38:23 · 2843 阅读 · 0 评论 -
R包animalcules-一键式交互探索微生物组数据
if (!requireNamespace("animalcules", quietly=TRUE)) BiocManager::install("compbiomed/animalcules")library(animalcules)library(SummarizedExperiment)library(MultiAssayExperiment)data_dir = system.file("extdata/MAE.rds", package = "animalcules")MAE =.转载 2021-08-20 11:15:38 · 695 阅读 · 0 评论 -
Upset plot的R实现
GitHub - hms-dbmi/UpSetR: An R implementation of the UpSet set visualization technique published by Lex, Gehlenborg, et al..Upset Plots | R-bloggers原创 2021-08-20 10:27:42 · 2354 阅读 · 0 评论 -
条件logistic回归及R实现
library(survival)resp <- levels(logan$occupation)n <- nrow(logan)indx <- rep(1:n, length(resp))logan2 <- data.frame(logan[indx,], id = indx, tocc = factor(rep(resp, each=n)))logan2$case <- (log.原创 2021-08-20 09:57:36 · 9960 阅读 · 6 评论 -
nhanesA包的介绍及使用
Introducing nhanesAChristopher J. Endres2021-01-30BackgroundnhanesA was developed to enable fully customizable retrieval of data from the National Health and Nutrition Examination Survey (NHANES). The survey is conducted by the National Center for翻译 2021-08-14 22:34:35 · 7428 阅读 · 9 评论 -
missForest的R实现
在R中,能处理缺失值的包有很多,比如VIM, mice, Amelia, missForest, Hmisc, mi,等等,那为什么本文偏偏选择missForest作为处理包呢?这是因为missForest可以处理包含连续变量以及分类变量的缺失值,有很多软件或包在进行插补缺失值的时候,通常识别不了分类变量,如果你有一列二分变量是用“是”和“否”作为答案的,那么值通常是0和1,或1和2。这些软件或包在对这一列变量的缺失数据进行插补的时候,可能出现小数 低于0或1的数值 大于1或2的数值而我们需要转载 2021-06-29 22:11:35 · 3157 阅读 · 2 评论 -
microbiomeViz:绘制lefse结果中Cladogram
平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下download.file("https://bitbucket.org/biobakery/biobakery/raw/tip/demos/biobakery_demos/data/metaphlan2/output/SRS014459-Stool_profile.txt", 'SRS014459-Stool_profile.txt')knitr转载 2021-05-27 14:29:33 · 2196 阅读 · 1 评论 -
NLinteraction包的使用
可以与BKMR包联用,估计环境混合物的影响及环境化学物暴露间的交互作用,BKMR包可探讨化学物间交互作用,但无法提供交互作用的PIP值,NLinteracton包可弥补这一缺陷。安装library(devtools)install_github(repo = "jantonelli111/NLinteraction")library(NLinteraction)构建模拟数据集n = 100p = 10pc = 1X = matrix(rnorm(n*p), n, p)C原创 2021-05-14 22:45:08 · 1823 阅读 · 4 评论 -
线性混合模型R实现的更多实例
library(nlme)## Warning: package 'nlme' was built under R version 3.6.3library(lme4)## Warning: package 'lme4' was built under R version 3.6.3## Loading required package: Matrix## ## Attaching package: 'lme4'## The following object is m.原创 2021-04-20 16:25:59 · 2538 阅读 · 3 评论 -
平方根反正弦变换(the arcsine square root transformation)的R实现
反正弦变换是反正弦和平方根变换函数的组合。 它采用asin(sqrt(x))的形式,其中x是从0到1的实数。它是平方根转换,有助于处理接近于1或0的概率,百分比和比例。 另外,由于反正弦函数的值不大于1,当x为百分比时,需转化为小数或分数,否则会报错。反正弦变换函数类似于logit变换或log变换, 这种反向作用扩大了可变范围,同时将其向中心挤压,使极端情况更容易看到。# arcsine transformation in r> asin(sqrt(0.5))[1] 0.7853982原创 2021-04-16 15:09:42 · 6945 阅读 · 0 评论 -
Deletion/Substitution/Addtion(DSA)的R实现
partDSAis a novel tool for generating a piecewise constant estimation sieve of candidate estimators based on an intensive and comprehensive search over the entire covariate space. The strength of this algorithm is that it builds'and'and'or'statements....原创 2021-03-30 16:30:16 · 1513 阅读 · 6 评论 -
ggplot2修改坐标轴刻度
目录:初始图样 如何修改坐标轴的显示范围 如何修改坐标轴的标签(内容、大小、字体、颜色、加粗、位置、角度) 如何修改坐标轴的刻度标签(内容) 如何修改坐标轴的刻度标签(大小、字体、颜色、加粗、位置、角度) 如何修改坐标轴的刻度间隔 如何去掉网格线 如何去掉刻度标签 如何去掉刻度线 如何去掉外层边框 如何再加上X轴、Y轴(无刻度、无标签)(更多内容请见:R、ggplot2、shiny 汇总)初始图样:library(ggplot2)dt = data.fram..转载 2021-01-14 12:52:50 · 61660 阅读 · 2 评论 -
reshape2包的基本用法(melt及cast)
An Introduction to reshape2reshape2is anRpackage written byHadley Wickhamthat makes it easy to transform data between wide and long formats.What makes data wide or long?Wide data has a column for each variable. For example, this is wide-format d...原创 2021-01-10 21:14:11 · 6473 阅读 · 2 评论 -
dplyr包功能(数据清理、过滤、合并R实现)
目录去除重复项选取随机样本变量重命名select()函数filter()函数summarise()函数arrange()函数group_by()函数mutate()函数join()函数R软件包dplyr用于数据清理,处理,可视化和分析,包含了很多有用的功能,与ggplot2,reshape2并列为数据分析及可视化的三大包之一。select() filter()mutate() group_by() summarise()arrange() jo.翻译 2021-01-09 21:40:07 · 2513 阅读 · 0 评论