学习笔记Day12:初探LInux 2

Linux初探

同一个目录中不允许出现文件及文件夹重名

查看文件
  1. cat (Concatenate)查看文本文件内容,输出到屏幕(标准输出流)

    • 常用参数

      • -A打印所有字符,包括特殊字符(换行符、制表符等)
      • -n/-b标记行号,-n标记空行,-b不标记空行
    • 常见用法

      cat > file创建一个新文件file,并可以将简单内容写入文件。

      >为重定向符,意为把cat原本输出到屏幕的内容写入file的文件,会覆盖。

      >>追加符,可以继续写入文件,不覆盖。

      zcat可以读压缩文件

    tac倒着看文件(从倒数第一行开始输出)

  2. head 查看文件的前n行(默认10行)

    tail查看文件的后n行(默认10行)

    • 常用参数

      • -n设置看多少行的参数
    • 常见用法

      cat file.txt | head -n3 等价 head -n3 file.txt

      |管道符号

  3. more逐页查看文件,按空格翻页,按回车换行,q退出

    less more的升级版,常用的查看文件命令

    • 常见参数

      • -N 显示行号
      • -S 单行显示(可以上下左右翻阅)
    • 常见用法

      /keyword进行关键词搜索;n/N上下跳转关键词。

  4. wcword count)统计文本

    • 常见参数

      • -l 统计行数(比较常用)
      • -w 统计字符串数,连在一起的字母是一个字符串。
      • -c 统计字节数,包括特殊字符,如换行符和制表符等。
    • 常见用法

      wc -l file1.txt file2.txt file3.txt 输出三个文件行数及总计行数

  5. cut 文本分割

    • 常见参数:

      • -d 指定分隔符,默认\t;
      • -f输出哪几列(字段fields)
    • 常见用法:

      less -SN Data/example.gtf | cut -f 1,3-5 | less 以默认制表符分割成列,取出1,3,4,5列(不会乱序)

  6. sort 排序

    • 常见参数:

      • -n 按照数值从小到大排序(默认是按照字符串理解数字的)
      • -V 字符串中含数值时,按照数值从小到大排序
      • -r 逆向排序
      • -k 按照哪一列进行排序
      • -t 指定分隔符
    • 常见用法

      less exp.csv | sort -k 3 -n| less -SN 根据第3列按照数值排序

  7. uniq 去除重复行,只能去除上下挨着的重复行,需要结合sort使用

    • 常见参数

      • -C 统计每个字符串连续出现的行数
    • 常见用法

      cat file.gtf | cut -f3 | sort | uniq -c 将文件以制表符分割的第三列排序后统计出现了多少次(联想R的table)

  8. paste 文本合并

    • 常见参数
      • -d 指定分隔符
      • -s 按行合并
    • 常见用法
      • paste file1 file2 默认按列合并
      • seq 20 | paste - - 很有意思!试一下!
  9. tr 字符替换

    • 常见参数

      • -d 删除
      • -s 缩减连续重复字符
    • 常见用法

      tr 'a' 'A' 把小写a换成大写A,全部替换

      tr ' ' '\t'把空格替换成制表符

      tr '\n' ' '把换行符替换成空格

MD5
  1. 生成md5值:md5sum file1

  2. 验证md5值:md5sum -c file1.md5

小TIPs
  • 特殊符号:^I\t 制表符;$\n 换行符
  • 把输入文件当作输出文件!会清空文件!需要存为另一个文件

生物信息学常见数据格式

fasta (fasta,fa,fna,faa,fas)

基于文本表示核酸序列的

特征:两部分, id行和序列行

  1. id行:以">"开头,有时候会包含注释信息,如chr1、chr2
  2. 序列行:一个字母表示一个碱基/氨基酸,ATCGN或二十种氨基酸
fastq

一种保存生物序列(通常核酸序列)及其测序质量得分信息的文本格式。

特征:四行组成(行内信息必须一行写完)

  1. 第一行:以@开头,之后为序列的标识符以及描述信息
  2. 第二行:为序列信息,如ATCG等
  3. 第三行:以+开头,之后可以再次加上序列的标识及描述信息(可无信息)
  4. 第四行:为碱基质量值,与第二行序列对应,长度相等
gff

在这里插入图片描述

gtf

在这里插入图片描述

  • gene_idtranscript_id非常重要!!

  • 强制对齐column -t

引用自生信技能树课程~

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值