下机数据处理

FASTQC

基本格式# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN # 主要是包括前面的各种选项和最后面的可以加入N个文件 # -o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的 # --extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包 # -t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯 # -c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到 # -a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留 # -q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。

 链接:https://www.jianshu.com/p/a1eb03d63083

 

FASTP

去低质量软件

-A 这个参数代表不去adapter

-a 接头序列

-f, --trim_front1                    切除前面的几个base (int [=0])

  -t, --trim_tail1

-g, --trim_poly_g                 polyG tail trimming, 自动切除Illumina NextSeq/NovaSeq data

      --poly_g_min_len        最小的polyg的个数 默认为10

-G 不能去掉polyg

-x ployx

 -Q, --disable_quality_filtering

-q  去除低质量 默认小于15

-u 低质量的比率 默认40%

-n 如果N的数量大于【5】即去除这条reads

-L 如果有这个参数 则表明不filter 长度

-l [15]长度小于这个数值被filter

 

-y 碱基与下一个碱基有差异的占比

# a 51-bp sequence, with 3 bases that is different from its next base seq = 'AAAATTTTTTTTTTTTTTTTTTTTTGGGGGGGGGGGGGGGGGGGGGGCCCC' complexity = 3/(51-1) = 6%

-Y 30%默认占比

 

-c PE数据中 重叠部分碱基进行纠错 如果一个高质量一个低质量 那么低质量会被纠正

来自 <https://github.com/OpenGene/fastp>

 sliding window cutting by 计算框的平均质量. 默认没有这个功能,

-5, --cut_by_quality5             5'开始切质量低的框, and trim leading N bases.

-3, --cut_by_quality3             enable per read cutting by quality in tail (3'), and trim trailing N bases.

-W, --cut_window_size,

 -M, --cut_mean_quality.

-U 切除特定的分子

-umi_loci特定位置做unique molecular identifier (index1 index2 reads1( head of reads 1 )reads2   --umi_len 指定UMI的长度只有在head of reads 的时候  --umi_skip 接着UMI后去掉几个bp  )

-p, --overrepresentation_analysis    enable overrepresented sequence analysis.

  -P, --overrepresentation_sampling    one in (--overrepresentation_sampling) reads will be computed for overrepresentation analysis (1~10000), smaller is slower, default is 20. (int [=20])

  -j, --json                           the json format report file name (string [=fastp.json])

  -h, --html                           the html format report file name (string [=fastp.html])

  -R, --report_title                   should be quoted with ' or ", default is "fastp report" (string [=fastp report])

  -w, --thread                         worker thread number, default is 3 (int [=3])

  -s, --split                         切分结果文件~1M ( 0001.out.fq, 0002.out.fq...), disabled by default (int [=0])

  -S, --split_by_lines              

  -d, --split_prefix_digits            the digits for the sequential number padding (1~10), default is 4, so the filename will be padded as 0001.xxx, 0 to disable padding (int [=4])

 

SICKEL

/sickle pe  -t sanger -f aaa.fastq -r aaa2.fastq -o test1.fastq -p test2.fastq -s  s.fastq &

 

rimmomatic 的好处在于,它不但可以用来切除illumina测序平台的接头序列,还可以去除由我们自己指定的特定接头序列,而且同时也能够过滤read末尾的低质量序列,多线程运行,数据快,适合RNA-seq数据的预处理,由于数据结果中reads长度不一,剔除的数据量要多一些,不适用于denovo组装的short reads.

rimmomatic 使用参数

  • ILLUMINACLIP,接头序列切除参数。LLUMINACLIP:TruSeq3-PE.fa:2:30:10省掉了路径)意思分别是:TruSeq3-PE.fa是接头序列,2是比对时接头序列时所允许的最大错误数;30指的是要求PE的两条read同时和PE的adapter序列比对,匹配度加起来超30%,那么就认为这对PE的read含有adapter,并在对应的位置需要进行切除【注】。10和前面的30不同,它指的是,我就什么也不管,反正只要这条read的某部分和adpater序列有超过10%的匹配率,那么就代表含有adapter了,需要进行去除;

【注】测序的时候往往只会在测到一些部分的adapter,因此read和adaper的时候肯定是不需要要求百分百匹配率的,上述30%和10%其实是比较推荐的值。

  • SLIDINGWINDOW,滑动窗口长度的参数,SLIDINGWINDOW:5:20代表窗口长度为5,窗口中的平均质量值至少为20,否则会开始切除;

  • LEADING,规定read开头的碱基是否要被切除的质量阈值;

  • TRAILING,规定read末尾的碱基是否要被切除的质量阈值;

  • MINLEN,规定read被切除后至少需要保留的长度,如果低于该长度,会被丢掉。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值