![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据处理+绘图+统计学习
数据处理+绘图+统计学习
巴黎板蓝根
生信研究生在读,从入门到入门的学习过程,记录下自己的学习资料,做第二个大脑。
展开
-
ggplot2各类学习资源
Winston Chang winston@stdout.orgWinston 是 RStudio 的软件工程师,他是软件包 Shiny、ggplot2 和 devtools 的开发者。他获得西北大学的心理学专业博士学位,也是 O’Reilly Media 出版的《R Graphics Cookbook》的作者。link....原创 2020-09-08 20:44:38 · 217 阅读 · 0 评论 -
R 用代码获取NCBI数据
以后看NCBI,再也不用鼠标点点点了原创 2021-01-11 16:20:25 · 109 阅读 · 0 评论 -
linux RDKit | SMILES转MASCC或ECFP6
smiles转fingerprint原创 2022-09-15 11:34:37 · 20 阅读 · 0 评论 -
linux (在linux运行R遇到的问题)
1.运行R显示"biobase"未安装R语言安装并使用Biobase包:install.packages("BiocInstaller", repos="https://bioconductor.org/packages/3.6/bioc")BiocInstaller::biocLite("Biobase")2.运行"library(NMF)“报错,提示运行"install.extras(NMF)”直接运行"install.extras(NMF)"行不通,显示各种错误,例如Error in c原创 2021-11-03 21:43:34 · 1592 阅读 · 0 评论 -
Linux CentOS查看和修改PATH环境变量的方法
致敬大佬查看PATH:echo $PATH以添加mongodb server为列修改方法一:export PATH=/usr/local/mongodb/bin:$PATH//配置完后可以通过echo $PATH查看配置结果。生效方法:立即生效有效期限:临时改变,只能在当前的终端窗口中有效,当前窗口关闭后就会恢复原有的path配置用户局限:仅对当前用户修改方法二:通过修改.bashrc文件:vim ~/.bashrc 在最后一行添上:export PATH=/usr/local原创 2022-02-18 14:24:41 · 978 阅读 · 0 评论 -
linux 下载pubchem文件
pubchem原创 2022-08-23 10:17:27 · 6 阅读 · 0 评论 -
TCGA (linux下载)
1.gdc-client方法下载,含软件安装和下载命令gdc-client download -m gdc_manifest_2021.txt -d ./## -m的意思是下载manifest,后面接着文件列表的txt文件名称,-d是下载的文件药储存的地方下载之后的文件,一个样本在一个文件夹下并且为gz格式2.批量解压缩子目录中的gz文件: find . -name '*.gz' |xargs gunzip {}3.整理合并所有样本的基因counts matrix## R中运行##原创 2021-11-17 18:46:36 · 432 阅读 · 0 评论 -
linux (中操作各种问题的解决办法)
1.对每个文件夹下的.fastq.gz文件检查md5## 不知道为什么突然不行了nohup find *fastq.gz -type f -print0 | xargs -0 md5sum > sjy.check.md5 &## 换一个吧:nohup find / -type f -print0 | xargs -0 md5sum > sjy.check.md5 &md5sum -c sjy.check.md5 > complete.log链接: m原创 2020-12-03 15:38:40 · 89 阅读 · 1 评论 -
R read.table报错
> data2 <- read.table("./Phospho (STY)Sites.txt",header = T,sep = "\t")Warning messages:1: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : EOF within quoted string2: In scan(file = file, what = what, sep = sep, quote =原创 2021-02-23 09:22:29 · 1715 阅读 · 0 评论 -
R Normalizaton
Normalization1.R中减去均值的方法# 设置一个矩阵> x [,1] [,2] [,3][1,] 1 3 7[2,] 2 8 6# rep函数> x - rep(colMeans(x), rep.int(nrow(x), ncol(x))) [,1] [,2] [,3][1,] -0.5 -2.5 0.5[2,] 0.5 2.5 -0.5# scale函数> scale(x,scale =原创 2020-12-17 17:00:30 · 161 阅读 · 0 评论 -
R 数据处理技巧_3
1.R中查找某个向量中元素在另一个向量中的位置:原博客取了向量交集之后,想要找到子集在之前的向量中的位置,进行筛选使用match函数,match(x,y),返回x在y中的位置。原创 2021-01-05 09:47:56 · 97 阅读 · 1 评论 -
R 求具有重复行标签的值的和(for循环)
致敬原文章library(plyr)#示例表a<-data.frame("A"=c("a","b","a"),"B"=c(1,1,3),"C"=c(2,3,4))#先求一列初始化alldata<-aggregate(C ~ A,data=a,sum)#重命名避免重复colnames(alldata)[2]<-"test"for (i in colnames(a)[2:length(colnames(a))]){ #计算每列的和 ter<-aggrega原创 2021-03-17 16:19:04 · 397 阅读 · 0 评论 -
R mutation signature
本文介绍如何利用deconstructSigs-R包进行mutation signature分析:deconstructSigs|探寻cosmic的独特“气质“mutation signature菜鸟写的比较详细:突变频谱探究mutation siganures | 生信菜鸟团至于突变模式为什么有96种?维基百科真的是百科...............原创 2021-02-24 21:20:42 · 710 阅读 · 1 评论 -
R 关于NA的处理办法
锁定NA的位置which(is.na(data3)) 有些格为空字符串而非NAdata2[data2==""]<-NA将NA统一为0is.nan.data.frame <- function(x)do.call(cbind, lapply(x, is.nan))mydata[is.na(mydata)] <- 0去除NA的行下面用实例来说明这两个函数的作用:这是一个数据框final: gene hsap mmul mmus rnor cfam 1 ENSG00原创 2020-12-03 15:41:31 · 2991 阅读 · 0 评论 -
R 循环多个文件画图生成一个or批量生成多个pdf文件
链接: R语言循环多个文件画图生成一个or批量生成多个pdf文件.原创 2020-12-03 15:40:40 · 3004 阅读 · 0 评论 -
R 多个data.frame合并
library(dplyr)x <- data_frame(i = c("a","b","c"), j = 1:3)y <- data_frame(i = c("b","c","d"), k = 4:6)z <- data_frame(i = c("c","d","a"), l = 7:9)// 创建x,y,z结果> x# A tibble: 3 x 2 i j <chr> <int>1 a 12 b原创 2020-12-03 15:42:24 · 2698 阅读 · 0 评论 -
R 安装R包
本地安装原创 2020-12-24 15:11:20 · 76 阅读 · 0 评论 -
文章实践篇(病毒序列|系统发育树|芯片探针)
TCGA生信技能树66个教程1.手把手教你“破译”武汉新型冠状病毒(一天完成中文期刊《生物信息学》文章的工作)2.1 寻找 Nankai回文序列2.2 构建进化树2.3 寻找“可变翻译”2.构建系统发育树:只靠这个就能发PNAS?!我没看错?3.芯片探针序列的基因注释已经无需你自己亲自做了(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释...原创 2021-01-14 21:51:44 · 214 阅读 · 0 评论 -
R 免疫浸润CIBERSORT
免疫浸润CIBERSORT原创 2022-07-15 09:11:44 · 11 阅读 · 0 评论 -
Perl 读取一个目录下的所有文件名
如果你想用Perl读取一个目录下的所有文件名,你应该怎么办呢?一般来讲,我喜欢用两种方法。第一种方法,直接用readdir来读取目录句柄。下面展示一些 内联代码片。use warnings;use strict;my $dir = "./test";my $file;my @dir;opendir (DIR, $dir) or die "can't open the directory!";@dir = readdir DIR;foreach $file (@dir) {if (原创 2020-12-03 15:39:43 · 1567 阅读 · 0 评论 -
R 使用merge函数合并数据,保持原始数据顺序
merge函数会对rowname重新排序data_fdr_transed <- merge(row_name_dt,data_fdr,by.x="row_name")保持原有顺序join函数tmp<- plyr::join(row_name_dt,data_fdr,by="row_name")创建一个变量,它给出row_name_dt中的行号。然后,一旦合并了数据,就可以根据这个变量对新的数据集进行排序。##按照row_name_dt的row_name顺序合并两个数据集row_原创 2020-12-03 15:41:02 · 2817 阅读 · 0 评论 -
ChIP-seq 原理及实践
包含RNA-seq/ChIP-seq/ATAC-seq/scRNA-seq等原理及实践这个可能更全面,之后仔细看吧简书:有数据可以跟着做原创 2021-04-19 10:57:21 · 558 阅读 · 0 评论 -
Linux 突变数据处理pyclone+citup+timescape
pyclone原创 2022-07-26 17:11:48 · 21 阅读 · 0 评论 -
贝叶斯通俗解释
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。我们就需要提供一个猜测(hypothesis),我们需要做两件事情:算出各种不同猜测的可能性大小。2.算出最靠谱的猜测是什么。第一个就是计算特定原创 2021-01-11 15:55:59 · 292 阅读 · 0 评论 -
AUC
AUC,一文解疑原创 2021-03-30 18:44:38 · 100 阅读 · 0 评论 -
R语言 NMF
R语言 NMF 如何自动判断最佳rank的数目NMF层次聚类(较简单,可follow)R语言实现非负矩阵分析(较详细,含原理)NMF包中包含不同的算法method,含对比代码原创 2021-10-25 11:04:02 · 1136 阅读 · 0 评论 -
Edge betweenness
只看开头的Edge betweenness解释即可原创 2021-03-30 13:41:49 · 1078 阅读 · 0 评论 -
statquest 学习笔记
statquest汇总文字版原创 2021-01-14 11:27:48 · 561 阅读 · 0 评论 -
R k.means及其聚类评估
1.k.means原理及实践K-means介绍使用R完成Kmeans聚类(不依赖包)所需代码都有2.聚类稳定性评估原创 2021-03-30 10:50:42 · 261 阅读 · 0 评论 -
limma包进行多组间差异表达
1.两组间阐述较清楚2.大致相似,多组间差异表达看这里3.生信技能树,含topTreat函数+韦恩图4.生信星球,差异表达分子分母弄错了但解释较清楚原创 2021-08-18 17:53:41 · 2907 阅读 · 1 评论 -
R语言 GO|KEGG
GO分析,参数写得详细clusterProfiler,含代码‘clusterProfiler: 分析+可视化GO和KEGG富集原创 2021-03-22 16:13:44 · 696 阅读 · 0 评论 -
多重假设检验与Bonferroni校正、FDR校正
多重假设检验与Bonferroni校正、FDR校正原创 2020-12-28 17:43:19 · 2348 阅读 · 0 评论 -
R venn图
常用library(RColorBrewer)color <- brewer.pal(3, "Set3")# Chartvenn.diagram( x = list(set1, set2, set3), category.names = c("Set 1" , "Set 2 " , "Set 3"), filename = 'venn2.png', output=TRUE, # 输出原创 2021-12-03 15:02:26 · 320 阅读 · 0 评论 -
R 截断y轴
提供了三种方法这个更熟悉一点,基于ggplot2原创 2021-03-09 20:25:07 · 531 阅读 · 0 评论 -
R scatter plot
要啥有啥系列原创 2021-03-04 19:44:39 · 496 阅读 · 1 评论 -
R 树状图画法
树状图原创 2021-01-14 11:28:38 · 422 阅读 · 0 评论 -
R barplot
ggplot2.barplot参数解释+画图示例原创 2020-12-24 17:03:32 · 525 阅读 · 1 评论 -
R 维恩图
1.venn.diagram首先我们有这样一个格式的文件,是将colname对应的四个文件merge之后(注意“all = T”),意思就是看“Accession”这一列对应蛋白在每个数据集的存在情况,不存在则为“NA”:tmp1 <- merge(LCC1_12F[,c(1,2)],LCC1_24F[,c(1,2)],by="Accession",all = T)tmp2 <- merge(LCC2_12F[,c(1,2)],LCC2_24F[,c(1,2)],by="Accession原创 2020-12-23 17:50:38 · 352 阅读 · 0 评论 -
R PCA分析原理+画图
1. PCA画图2. PCA原理但我觉得 statquset讲的更好原创 2020-12-03 15:39:00 · 1019 阅读 · 0 评论 -
R 高阶(Y叔|pairwise correlation|3d barplot|概率密度图)
1.boxplot简化链接: link.2.boxplot对应点链接: link.3.correlation高级图链接: link.density分布图链接: link.原创 2020-12-03 15:41:43 · 1530 阅读 · 0 评论