R
awk_bioinfo
向前进。
展开
-
R数据对象快速保存与读取:qs包
qs是一个R语言包,使用qs可以快速地从磁盘中保存和读取对象。** 它的主要目的是替换R中的saveRDS和readRDS函数,提供了一个更加快速而完整的数据读写方法。** 受到fst的启发,qs通过lz4/zstd库使用了类似的块压缩设计。它的不同之处在于,对属性和对象的引用设计了更普适的方法。一方面,saveRDS和readRDS是R数据序列化的标准,但是这些函数没有针对速度进行优化;另一方面,fst非常快,但只适用于部分数据类型如data.frame。原创 2024-09-13 17:37:11 · 327 阅读 · 0 评论 -
R语言手动评估计算基因组N50,N90
N50计算原创 2023-09-18 11:56:10 · 338 阅读 · 0 评论 -
GSEA富集分析结果详解
富集分数:S 反应基因集(比如某个通路内的基因集)成员 s 在排序基因集 L(比如根据 logFC 排序的差异基因集,默认降序,所以上调基因在顶端)的两端富集的程度。正值ES表示基因集 S 在基因集 L 的顶部富集,负值ES表示基因集 S 在基因集 L 的底部富集。第三部分是排序后所有基因 rank 值的分布,热图红色部分对应的基因在 A 组高表达,蓝色部分对应的基因在 B 组高表达,每个基因对应的信噪比(Signal2noise,前面选择的排序值计算方式)以灰色面积图展示。NES:标准化后的富集分数。原创 2023-08-09 11:46:59 · 5732 阅读 · 0 评论 -
R语言读取压缩文件
R语言读取压缩文件常规来说,读取网页中的压缩文件分为两步,以GENCODE数据库的人基因组注释文件为例,首先需要下载:download.file(‘ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_24/gencode.v24.chr_patch_hapl_scaff.annotation.gtf.gz’, dest...原创 2020-04-18 21:18:45 · 11904 阅读 · 0 评论 -
进化树+PCA的R定制化绘图参考代码
进化树和PCA原创 2023-06-05 17:21:24 · 249 阅读 · 0 评论 -
单细胞数据读取分群聚类注释整合差异一条龙代码
单细胞原创 2022-11-01 16:51:41 · 800 阅读 · 0 评论 -
使用R绘制单细胞 细胞比例堆叠柱状图加面积连线(桑基图)
使用R绘制单细胞 细胞比例堆叠柱状图加面积连线(桑基图)原创 2022-09-23 10:32:47 · 3553 阅读 · 0 评论 -
基于单细胞marker gene数据库富集分数的细胞群注释方法
细胞注释原创 2022-09-07 17:51:38 · 680 阅读 · 0 评论 -
使用R包 ggpattern实现柱形图渐变填充
ggpattern实现渐变填充原创 2022-08-03 10:40:26 · 925 阅读 · 0 评论 -
同时设置分面标记位置和 strip.text.y 时角度不生效问题
分面strip.text的角度调整不生效问题原创 2022-07-28 15:05:41 · 329 阅读 · 0 评论 -
R基础函数详解参考卡片
话说基础不牢,地动山摇。打好R基础,从学习R参考卡片开始,卡片虽小,信息量很高。原创 2022-07-28 14:29:42 · 500 阅读 · 0 评论 -
edgeR提供的TMM归一化算法详解
egdeR TMM归一化算法转载 2022-07-13 15:38:24 · 1129 阅读 · 0 评论 -
基于SSR数据的群体结构分析和DeltaK值可视化
基于SSR数据的群体结构分析和DeltaK值可视化原创 2022-07-11 16:27:36 · 2019 阅读 · 2 评论 -
利用R手动计算基于BH算法的FDR值
fdr padjust 统计计算原创 2022-07-05 10:14:34 · 1370 阅读 · 0 评论 -
R包在Linux下编译不通过 CentOS/Redhat R包使用最新的gcc编译
R切换gcc编译器版本转载 2022-07-01 10:42:25 · 295 阅读 · 0 评论 -
超全R语言颜色表
使用下面的代码可生成颜色表图pdf(‘R语言颜色表.pdf’,9,16)cl=colors()par(mar=c(0,0,0,0),bty=“n”)plot(c(0, 98), c(0, 73), type = “n”, xlab = “”, ylab = “”)title(line = -2, main = ‘R语言颜色表’)for(i in 0:8){rect(i11,73:1,i11+10,72:0,col=cl[1:73+i73])text(i11+5,73:1-0.5,labels转载 2022-04-11 16:35:45 · 54232 阅读 · 1 评论 -
R数据框缺失值处理的三种基本方式
第一种处理方式:行删除> df=na.omit(df)第二种处理方式:中位数填充> df[is.na(df$var2),"var2"]=median(df$var2,na.rm = T)第三种处理方式:均值填充> df[is.na(df$var3),"var3"]=mean(df$var3,na.rm = T)原创 2022-03-31 15:21:02 · 1188 阅读 · 0 评论 -
修改Rprofile文件永久配置R环境
Rprofile文件路径位于R安装目录下的etc目录下也可在家目录建立.Rprofile文件更改配置# Things you might want to change# options(papersize="a4")# options(editor="notepad")# options(pager="internal")# set the default help type# options(help_type="text") options(help_type="html")#原创 2022-03-31 09:18:29 · 1579 阅读 · 0 评论 -
在R中删除矩阵中含有0的行
在R中删除矩阵中含有0的行介绍如下三种方法:#方法一:A = sapply(1:nrow(A),function(x) if(all(A[x,])!=0) A[x,])#方法二:x[!as.logical(rowSums(dat==0)), ]#方法三:dat[dat==0] <- NAna.omit(dat)原创 2022-01-23 11:38:35 · 8201 阅读 · 2 评论 -
R 绘图中显示数学公式及公式嵌入变量
使用expression函数:expression()单独使用:expression()中的下标为[],上标为^,空格为~,连接符为*。示例代码如下:expression(Sigma~x[2]~x^2~'m'*'n'*~Sigma~y^2)expression()与 paste() 结合:expression(paste((frac(1, m)+frac(1, n))^-1, QQ[paste(m, ',', n)]))使用bquote可内嵌变量:bquote('Adj.R^2='原创 2021-10-14 16:08:39 · 797 阅读 · 0 评论 -
详解富集分析超几何分布检验
R进行超几何分布计算超几何分布是统计学中的一种离散分布,它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数。 也是生物信息学中常用的一种统计分布模型。我们在GO,KEGG的富集分析时就采用的是这个模型。 其数学表达式如下:f(k;n,m,N)={{{m \choose k}{{N-m} \choose {n-k}}} \over {N \choose n}}.其中:N: 总样本数m: 总样本中“特定类别”的数量n: 从总样本中随机抽取的数量k: 抽取样本中属于“特定类别”的数量原创 2021-09-17 15:10:10 · 3656 阅读 · 1 评论 -
如何创建R包
首先在R执行:package.skeleton(name = ‘ggstructure’,code_files = ‘structure.R’) 生成R包框架。然后修改主要函数的*.Rd 的title 等信息修改Description 描述信息最后执行 R CMD build --md5 包名 生成最终的R包。R CMD check 包名 检查R包是否有bug。...原创 2021-09-09 20:37:41 · 130 阅读 · 0 评论 -
R环境配置
在R的安装路径找到Rprofile配置文件:添加写入如下信息Sys.setenv(LANG = "en_US") # 设置全英文环境.libPaths('D://documents/R/library') # 设置包的下载路径# 设置清华镜像源options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.c原创 2021-08-15 17:05:23 · 297 阅读 · 0 评论 -
data.table大数据处理高效R包
在数据处理量较大的时候,最为头痛的就是数据的读写、运算效率。 data.table处理大数据集(数据文件达到以1G为单位)时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数(filter、group_by、mutate、summarise),数据量在上100万左右,稍微复杂的计算差距就特别明显。 但对于复杂的数据如何还尚未试验。data.table包除了处理速度快外另一个有点是代码简洁。1、fread函转载 2021-07-26 12:03:35 · 309 阅读 · 0 评论 -
解决安装ggtext 依赖R包gridtext C++编译报错:make: *** [RcppExports.o] Error 1
解决C++编译R包版本低问题sudo yum install centos-release-sclsudo yum install devtoolset-9#If you use your non-root account to install packages, #remove the sudo and change /root to /home/your_id in the following commandsudo mkdir -p /root/.Rsudo vim /root/.R/Ma原创 2021-07-21 15:48:16 · 1040 阅读 · 1 评论 -
R 多核并行计算包哪家强: future;future.apply; parallel; foreach ?
R 多核并行计算包哪家强?##### 生存分析 library(RTCGA)#了解数据infoTCGA <- infoTCGA() #这个命令会返回一个数据框,可以知道有哪些数据可被下载#获得临床数据:# Create the clinical data# BiBiocManager::install('RTCGA.clinical')library(RTCGA.clinical)clin <- survivalTCGA(BRCA.clinical) #到这里临床部分的原创 2021-07-01 08:50:12 · 2439 阅读 · 0 评论 -
R语言中plot()函数里的6种边框
R语言中plot()函数里的6种边框sanqima 2015-01-22 17:33:42 29993 收藏 20分类专栏: R语言 电脑 文章标签: R语言 边框版权R语言中,设置plot(x,y,’…, bty=“o”,…)里参数bty,就可以不同的6种边框了。bty可以取6种字符,分别为“o”、“l”、“7”、“c”、“u”、“]”。这些字符代 表6种边框。bty=“o” 绘制图形的上边框、下边框、左边框和右边框;注意这是小写的Obty=“l” 绘制图形的左边框和下边框;注意这是小写转载 2021-06-28 09:26:51 · 2750 阅读 · 0 评论 -
ggplot2 theme主题参数详解
参数设置:line 所有线属性rect 所有矩形区域属性text 所有文本相关属性title 所有标题属性axis.title 坐标轴标题textaxis.title.x x轴属性axis.titleaxis.title.y y轴属性axis.titleaxis.text 坐标轴刻度标签属性textaxis.text.x 属性和继承和前面类似,不再重复axis.text.yaxis.ticks 坐标轴刻度线lineaxis.ticks.xaxis.ticks.yaxis.tick原创 2021-06-24 15:23:37 · 1685 阅读 · 1 评论 -
GSVA:pathway级别的差异分析
GSVA其实就是pathway级别的差异分析标准差异分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是有成百上千个生物学功能注释(GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其转载 2021-05-07 16:55:10 · 10707 阅读 · 4 评论 -
patchwork + ggplotify拼接任意格式的图片
library(patchwork)library(magick)require(ggplotify)p1 <- ggplot(mtcars) +geom_point(aes(mpg, disp)) +ggtitle(‘Plot 1’)img <- image_read(‘structure_ALL.png’)p1 + as.ggplot(img)原创 2021-05-19 11:33:30 · 447 阅读 · 0 评论 -
R语言:多个图形绘制在一个画板的方法
1、使用par(mfrow=c(2,2))即可par(mfrow=c(3,3))plot(Nile)plot(Nile)plot(Nile)plot(Nile)plot(Nile)plot(Nile)plot(Nile)plot(Nile)plot(Nile)将平面分成3*3的形式。2、使用split.screen()split.screen(c(2,1)) # split display into two screenssplit.screen(c(1,3),原创 2021-04-07 16:06:24 · 7677 阅读 · 0 评论 -
ggplot2绘图调用外部变量
ggplot2绘图调用外部变量原创 2021-02-25 15:45:53 · 793 阅读 · 1 评论 -
centos7系统中安装 HDF5R 包
CENTOS 7 R 中安装 HDF5R 包在安装 hdf5r 包的时候,提示需要 hdf5-devel >= 1.8.13,而目前CentOS 7 中 yum 只能安裝1.8.12版本,所以只能手动安装高版本的hdf5.卸载yum安装旧版本后,从官网下载 hdf5-1.10.5安装wget https://support.hdfgroup.org/ftp/HDF5/releases/hdf5-1.10/hdf5-1.10.5/src/hdf5-1.10.5.tar.gztar xvf hdf转载 2020-06-04 08:05:00 · 3983 阅读 · 0 评论 -
ggplot2各种注释添加和调整
1、添加注解1.1 添加文本注解可以使用annotate()函数对图像进行添加注解:annotate(geom="", x=, y=, label=’’, family=’’, fontface=’’,colour=’’, size=#)geom表示添加注解的类型,可以为’text’文本类型等;其他类型查看?annotatex、y是给注解在图中赋予一个坐标label为要注释的内容f...转载 2020-04-03 20:17:07 · 9338 阅读 · 0 评论 -
R语言数据处理强悍包dplyr&reshape2&tidyr
R语言数据处理 dplyr&reshape2&tidyr 包详解dplyr:轻松地处理data.frame, data.table以及多种数据库为基础的数据,实现选择、变换、分组等plry:轻松地在vector, list, data.frame之间做分组变换,实现拆分、变换、合并的操作reshpae2:横向、纵向做数据变换非特别标注,默认为dplyr包准备工作tbl_...转载 2020-03-20 09:39:54 · 2115 阅读 · 0 评论 -
Linux环境下(centos7)R4.1.2版本安装及环境配置
Linux环境下R和R包安装及其管理前言R对windows使用很友好,对Linux来说充满了敌意。小数据可以在windows下交互操作,效果很好很棒。可是当我们要处理大数据,或者要在集群上搭建pipeline时,不得不面对在Linux上装R及想要的R包这个难题,尤其是对非root用户而言更是艰难重重。准备依赖库依次安装:zlib/bzip/liblzma/pcre/curl,注意顺序和版本...原创 2020-03-18 17:11:59 · 2733 阅读 · 2 评论 -
R语言中各种统计量描述函数
R语言中描述统计量的多种方法summary()、attributes()、describe()、str()等summary()函数可以获取描述性统计量可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计misc包中的describe()函数可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值3.psyc...转载 2020-03-13 16:52:16 · 5107 阅读 · 2 评论 -
R语言画韦恩图详解
详解R语言画韦恩图原创飘羽 发布于2018-07-09 17:15:19 阅读数 8472 收藏展开需要安装和导入的包install.packages(“VennDiagram”)library(grid)library(futile.logger)library(VennDiagram)已知各个数据集的个数,并且交叉个数来制作韦恩图两个数据集:A simple two-se...转载 2020-01-08 16:11:31 · 5495 阅读 · 0 评论 -
ggplot2作图详解
简介ggplot2包是基于Wilkinson在《Grammar of Graphics》一书中所提出的图形语法的具体实现, 这套图形语法把绘图过程归纳为data, transformation, scale, coordinates, elements, guides, display等一系列独立的步骤, 通过将这些步骤搭配组合, 来实现个性化的统计绘图。于是, 得益于该图形语法, Hadley...原创 2019-12-24 16:51:31 · 1620 阅读 · 0 评论