1、安装Anaconda
我个人推荐在conda环境中安装,而且后续的分析以及数据处理也会用到conda,方式因人而异,如果有更好的方式欢迎补充,conda的安装方式可以参考其他播主的方法
以下是我参考的一些方式,基本上很多问题问题都可以找到
Ubuntu自定义路径安装Anaconda_do you wish the installer to prepend the anaconda3-CSDN博客
Ubuntu自定义路径安装Anaconda和改变Anaconda版本_ubantu如何修改anaconda3版本-CSDN博客
https://zhuanlan.zhihu.com/p/434356947
Linux系统安装、卸载Anaconda要点_linux anaconda安装过程中断会删除安装文件吗-CSDN博客
https://zhuanlan.zhihu.com/p/506718223
2、安装PandaSeq
我推荐在Anaconda的库官网上进行安装,一般在官网库上能找到的基本上安装一般不会出问题,我喜欢在PIP官网库和Anaconda官网库上进行安装工具和包
Anaconda:https://anaconda.org/
PIP:pip · PyPI
然后在conda的网站搜索PandaSeq,点进去然后复制它的安装命令即可(记得先创建虚拟环境,在虚拟环境中操作,pandaseq不需要r-base和python,直接创建虚拟环境即可conda create -n PandaSeq -> conda activate PandaSeq)
3、PandaSeq的使用
进入虚拟环境后,输入pandaseq -h即可查看使用方式
翻译过来就是
`pandaseq` 是一个用于处理高通量测序数据的软件,特别是设计用来处理来自Illumina平台的配对末端读段。下面是对给出的 `pandaseq` 2.11 版本使用说明的翻译和解释:
### 命令格式:
```bash
pandaseq [options] forward.fastq reverse.fastq
```
### 选项:
- `-6`: 使用PHRED+64质量编码(适用于CASAVA 1.3至1.7版本),而不是默认的PHRED+33(CASAVA 1.8及以后版本)。
- `-A algorithm:parameters`: 选择用于重叠检测和评分的算法。
- `-B`: 允许未标记的序列通过(当出现BADID错误时尝试使用)。
- `-C filter`: 加载可插拔的过滤模块。(可以重复使用多次。)
- `-D threshold`: 当引物距离序列起始位置越远时,对其进行惩罚。
- `-F`: 输出为FASTQ格式,而非默认的FASTA格式。
- `-G log.txt.bz2`: 将日志输出到BZip2压缩的文本文件。
- `-L length`: 序列的最大长度。
- `-N`: 删除所有包含未知核苷酸(N)的输出序列。
- `-O length`: 序列的最大重叠区域长度。(设置为0则使用读段长度。)
- `-T threads`: 使用指定数量的并行线程运行。
- `-U unaligned.txt`: 写入无法对齐的读段对及其质量分数的文件。
- `-W output.fasta.bz2`: 将序列输出到BZip2压缩的FASTA(或FASTQ)文件。
- `-a`: 在组装后移除引物,而不是在组装前移除。
- `-d flags`: 控制日志消息。
- `(R)`econstruction detail: 重建细节。
- Sequence (b)uilding information: 序列构建信息。
- `(F)`ile processing: 文件处理。
- `(k)`-mer table construction: K-mer表构建。
- Show every (m)ismatch: 显示每一个错配。
- Optional (s)tatistics: 可选统计信息。
- `-f forward.fastq`: 包含正向读段的输入FASTQ文件。
- `-g log.txt`: 将日志输出到文本文件。
- `-h`: 显示这个“愉快的废话”(即帮助信息)。
- `-i index.fastq`: 包含独立barcode/index读段的输入FASTQ文件。
- `-j`: 输入文件是bzipped格式的。(已废弃。)
- `-k kmers`: 表中的K-mer数目。
- `-l length`: 序列的最小长度。
- `-o length`: 序列的最小重叠区域长度。
- `-p primer`: 正向引物序列或要移除的碱基数。
- `-q primer`: 反向引物序列或要移除的碱基数。
- `-r reverse.fastq`: 包含反向读段的输入FASTQ文件。
- `-t threshold`: 序列必须达到的最低概率以进行组装,以及(如果使用的话)与引物匹配。
- `-u unaligned.txt`: 写入无法对齐的读段对的文件。
- `-v`: 显示版本信息并退出。
- `-w output.fasta`: 将序列输出到FASTA(或FASTQ)文件。
### 已知算法:
- ea_util
- flash
- pear
- rdp_mle
- simple_bayesian
- stitch
- uparse
这些算法用于处理读段的对齐和重叠分析,可以根据具体需求选择合适的算法。
例子:
具体的使用中一般用到
一、最基本
pandaseq -f /home/user/XX/forward.fastq.gz -r /home/user/XX/reverse.fastq.gz
这个会默认把输出文件放在home下面
二、指定简单的参数
pandaseq -f /home/user/XX/forward.fastq.gz -r /home/user/XX/reverse.fastq.gz -T 32(我的电脑是32线程) -W /home/user/XX/output.fastq.gz(输出到指定路径)
其他的参数大家可以自行尝试,一般简单的使用这两条命令即可,欢迎大家来补充,谢谢!