内容写的特别的“简洁”,存在疑惑的部分,欢迎讨论。
Linux基本命令能做的事
学习了cat, head, tail, less, more,cut,sort,wc,uniq等基本命令后,如何使用这些命令对生物信息数据做简单的分析呢。大致可以完成以下任务:
了解数据内容
数据基本信息,例如文件大小,有多少行
数据提取,排序和去重
所以本文假定你掌握了基本的Linux命令,对于不知道的命令会用man
或者help
去了解这些命令的作用。
数据准备
这里采用的实验数据是拟南芥的参考基因组及其注释文件,可在TAIR中下载,命令如下:
wget http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_chromosome_files/TAIR10_chr_all.fas
wget http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff
基本上从NCBI, EBI或其他数据库下载的数据都是以ASCII编码,可以用file
命令检查。如果不是ASCII编码的,你需要使用hexdump或其他命令删除里面的特殊符号。
$ file TAIR10_GFF3_genes.gff
TAIR10_GFF3_genes.gff: ASCII text
了解数据内容
在拿到一个纯文本文件后,第一步肯定是想看下这个文件的大致内容。但是如