例1.
数据大概是这个样子:
1)用 readr 包中的函数读取 mouse genes 文件
2)选取常染色体的基因
3)画以下两个基因长度 boxplot :
按染色体序号排列,从 1 开始
按基因长度中值排列,从短 -> 长 …
遇到的问题:
tibble和data frame的区别?
tibble不会自动针对每列生成因子
分别读入tibble和data frame数据?
mouse.tibble <- read_delim( file = "mouse_genes_biomart_sep2018.txt", delim = "\t", quote = "" )
mouse_gene<-read_tsv("data/talk04/mouse_genes_biomart_sep2018.txt")
如何按照条件筛选指定的行?
1. 用which读取指定行(tibble和data frame都可以,这里以data frame为例)
mouse_gene_MT<-mouse_gene[which(mouse_gene$`Chromosome/scaffold name` == “MT”),] #选取线粒体上的染色体
mouse_gene_MT<-mouse_gene[which(mouse_gene$`Chromosome/scaffold name`%in% c("1","2")),] #选取1,2号染色体上的基因
data frame的返回值为data frame;tibble的返回值为tibble(函数is_tibble()检验)