Linux初探
同一个目录中不允许出现文件及文件夹重名
查看文件
-
cat
(Concatenate)查看文本文件内容,输出到屏幕(标准输出流)-
常用参数
-A
打印所有字符,包括特殊字符(换行符、制表符等)-n/-b
标记行号,-n标记空行,-b不标记空行
-
常见用法
cat > file
创建一个新文件file,并可以将简单内容写入文件。>
为重定向符,意为把cat原本输出到屏幕的内容写入file的文件,会覆盖。>>
追加符,可以继续写入文件,不覆盖。zcat
可以读压缩文件
tac
倒着看文件(从倒数第一行开始输出) -
-
head
查看文件的前n行(默认10行)tail
查看文件的后n行(默认10行)-
常用参数
-n
设置看多少行的参数
-
常见用法
cat file.txt | head -n3
等价head -n3 file.txt
|
管道符号
-
-
more
逐页查看文件,按空格翻页,按回车换行,q
退出less
more的升级版,常用的查看文件命令-
常见参数
-N
显示行号-S
单行显示(可以上下左右翻阅)
-
常见用法
/keyword
进行关键词搜索;n/N
上下跳转关键词。
-
-
wc
(word count)统计文本-
常见参数
-l
统计行数(比较常用)-w
统计字符串数,连在一起的字母是一个字符串。-c
统计字节数,包括特殊字符,如换行符和制表符等。
-
常见用法
wc -l file1.txt file2.txt file3.txt
输出三个文件行数及总计行数
-
-
cut
文本分割-
常见参数:
-d
指定分隔符,默认\t;-f
输出哪几列(字段fields)
-
常见用法:
less -SN Data/example.gtf | cut -f 1,3-5 | less
以默认制表符分割成列,取出1,3,4,5列(不会乱序)
-
-
sort
排序-
常见参数:
-n
按照数值从小到大排序(默认是按照字符串理解数字的)-V
字符串中含数值时,按照数值从小到大排序-r
逆向排序-k
按照哪一列进行排序-t
指定分隔符
-
常见用法
less exp.csv | sort -k 3 -n| less -SN
根据第3列按照数值排序
-
-
uniq
去除重复行,只能去除上下挨着的重复行,需要结合sort使用-
常见参数
-C
统计每个字符串连续出现的行数
-
常见用法
cat file.gtf | cut -f3 | sort | uniq -c
将文件以制表符分割的第三列排序后统计出现了多少次(联想R的table)
-
-
paste
文本合并- 常见参数
-d
指定分隔符-s
按行合并
- 常见用法
paste file1 file2
默认按列合并- seq 20 | paste - - 很有意思!试一下!
- 常见参数
-
tr
字符替换-
常见参数
-d
删除-s
缩减连续重复字符
-
常见用法
tr 'a' 'A'
把小写a换成大写A,全部替换tr ' ' '\t'
把空格替换成制表符tr '\n' ' '
把换行符替换成空格
-
MD5
-
生成md5值:
md5sum file1
-
验证md5值:
md5sum -c file1.md5
小TIPs
- 特殊符号:
^I
及\t
制表符;$
及\n
换行符 - 把输入文件当作输出文件!会清空文件!需要存为另一个文件
生物信息学常见数据格式
fasta (fasta,fa,fna,faa,fas)
基于文本表示核酸序列的
特征:两部分, id行和序列行
- id行:以">"开头,有时候会包含注释信息,如chr1、chr2
- 序列行:一个字母表示一个碱基/氨基酸,ATCGN或二十种氨基酸
fastq
一种保存生物序列(通常核酸序列)及其测序质量得分信息的文本格式。
特征:四行组成(行内信息必须一行写完)
- 第一行:以
@
开头,之后为序列的标识符以及描述信息 - 第二行:为序列信息,如ATCG等
- 第三行:以
+
开头,之后可以再次加上序列的标识及描述信息(可无信息) - 第四行:为碱基质量值,与第二行序列对应,长度相等
gff
gtf
-
gene_id和transcript_id非常重要!!
-
强制对齐
column -t
引用自生信技能树课程~