生信软件 | Trimmomati (质量控制,修剪低质和接头序列)

介绍
  • Trimmomati 用于去除 Illumina平台的FASTQ序列中的Adapter,根据碱基质量值修整FASTQ序列文件
  • 支持单末端(SE),双末端(PE)测序数据
  • 支持多线程,gzip,bzip2压缩的FASTQ文件
  • 支持phred-33 和 phred-64 格式互相转化,目前多数Illumina测序数据为phred-33格式
安装

conda install -c trimmomati

这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解

使用
单末端测序数据

trimmomatic SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

双末端测序数据

trimmomatic PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

常用参数:

-threads 线程数,最大是CPU核数

-trimlog 生成日志名,强烈建议不开这个参数,生成的log文件巨大且大多数情况下,你是不会看的

-quiet 静默模式

与其他软件命令不同,Trimmomatic提供了多种修整步骤:

  • ILLUMINACLIP:从reads中剪切adapter和其他Illumina特定序列。
  • SLIDINGWINDOW:执行滑动窗口修剪,一旦窗口内的平均质量低于阈值,则切割。
  • LEADING:如果低于阈值质量,则在reads起始处剪切碱基
  • TRAILING:如果低于阈值质量,则在reads末尾处剪切碱基
  • CROP:将reads从末尾切割为指定长度
  • HEADCROP:从reads剪切后低于指定长度,则删除
  • MINLEN:如果reads低于指定长度,则删除
  • TOPHRED33:将质量得分转换为Phred-33
  • TOPHRED64:将质量得分转换为Phred-64

文档:http://www.usadellab.org/cms/index.php?page=trimmomatic

双末端测序命令解释

PE模式中,输入文件有两个input_forward.fq.gz input_reverse.fq.gz输出文件有四个(output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz),其中过滤之后双末端序列都保留的是paired,只保留一端序列的就是unpaired

mark

生信分析,`t.test` 函数在R语言用于执行独立样本的t检验,主要用于比较两个样本平均值是否有显著差异。其基本语法如下: ```r t.test(x, y = NULL, alternative = "two.sided", mu = 0, var.equal = FALSE, paired = FALSE, conf.level = 0.95, ..., trim = 0, na.rm = TRUE, exact = FALSE) ``` 参数说明: - `x` 或 `y`: 要比较的数值向量,如果只有一个变量,则视为单样本;如果有两个,则进行双样本比较。 - `alternative`: 检验假设,默认为"two.sided",即两侧检验(两尾),还有"greater"(单侧,上侧)和"less"(单侧,下侧)。 - `mu`: 默认为0,表示零假设,即两组平均值相等。 - `var.equal` (布尔): 如果设为`TRUE`,则假定两组数据方差相等,否则会计算分母更复杂的Welch's t检验。 - `paired` (布尔): 是否为配对样本检验,默认为`FALSE`。 - `conf.level`: 显著性水平,默认为95%,即置信度。 - `trim` (数字): 对两端指定比例的数据进行截断,避免异常值影响结果。 - `na.rm` (布尔): 是否删除缺失值,默认删除。 - `exact` (布尔): 对于小样本,是否进行精确p值计算,默认为`FALSE`,使用连续近似。 使用这个函数时,通常需要先准备好要对比的两个变量,然后根据研究目的选择适当的参数设置。例如,比较两组学生分数的均值差异可以这样操作: ```r # 假设有两个样本数据,分别存储在 vectors x 和 y scores_x <- c(85, 92, 78, 90) scores_y <- c(88, 86, 90, 94) # 进行t检验 t_test_results <- t.test(scores_x, scores_y) summary(t_test_results) # 查看结果摘要 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白墨石

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值