perl 如何更新_如何组装植物叶绿体基因组

本文详细介绍了如何利用高通量测序数据,通过NOVOPlasty软件组装植物叶绿体基因组。内容涵盖软件安装、配置文件设置、运行流程以及结果解读,提供了一步步的操作指南。
摘要由CSDN通过智能技术生成

e94ba7c5fe3a82df47c8750967e2ce99.png

待更新

叶绿体是绝大多数陆生植物都有的细胞器,让人惊奇的是,植物叶绿体和线粒体一样,都有着自己一套遗传物质。本文介绍如何用高通量测序数据利用两款常用的叶绿体基因组组装软件(NOVOPlasty和Get Organelle)来组装完整的叶绿体基因组。

两个软件都是命令工行

1.软件安装

NOVOPlasty

1.1系统和语言安装

NOVOPlasty是由perl语言写的,先让自己的电脑安装perl语言的编译器,

https://www.perl.org/

建议使用Linux系统,电脑已经是linux 系统或者macos的就不用管了,windows系统可以下载subsystem for windows具体的操作就不再这里描述了,可以参考下面两个连接里面的内容。确保你的电脑是有大于等于8G的运行内存。

WSL(Windows Subsystem for Linux)的安装与使用​www.cnblogs.com
c91a4ad439dde39ebdc00f1cf58ea188.png

安装好了运行Ubuntu 18的系统

1.2 NOVOPLasty 安装

在命令行输入

git clone ndierckx/NOVOPlasty

下载

ndierckx/NOVOPlasty​github.com
c27f2a99c5a1713be9bb6af2b153b77e.png

上面的连接是NOVOPlasty在github的连接,有问题可以参考

1.3 运行NOVOPlasty

运行NOVOPlasty非常简单

perl +NOVOPLasty的安装路径/NOVOPlasty.pl -c config.txt

就可以了,重点在于NOVOPlasy的配置文件也就是cofig.txt的设置

Project:
-----------------------
Project name = #你的项目名称
Type = mito #组装类型叶绿体chloro 或者是线粒体mito
Genome Range = 12000-22000 #基因组的预估大小,基本上在16K左右吧,找个近缘物种看看大小
K-mer = 33 #用于组装的k-mer 的大小,并不是越大越好,一般不建议更改
Max memory = #最大运行内存
Extended log = 0
Save assembled reads = no
Seed Input = Seed.fasta #用于起始组装的种子序列,NOVOPlasty安装软件目录下有这个文件,作者亲测还是这个种子序列最好用,注意写绝对路径。
Extend seed directly = no
Reference sequence = /path/to/reference_file/reference.fasta (optional)#选填,参考的近缘物种参考序列
Variance detection = no
Heteroplasmy = #检测异质性的参数,不填
HP exclude list =
Chloroplast sequence = /path/to/chloroplast_file/chloroplast.fasta (only for "mito_plant" option) #组装植物线粒体的时候填,提供本物种的叶绿体序列
Dataset 1:
-----------------------
Read Length = 151#高通量reads读长
Insert size = 300 #插入片段大小,测序建库的时候有
Platform = illumina #目前只支持illumina等大公司,BGI不支持注意
Single/Paired = PE #双端测序还是单端测序
Combined reads =
Forward reads = /path/to/reads/reads_1.fastq #前reads的文件路径
Reverse reads = /path/to/reads/reads_2.fastq #后reads 的文件路径
Optional:
-----------------------
Insert size auto = yes
Use Quality Scores = no

直接更改config.txt文件内容就可以了。

1.4 结果解读

组装质量最好会出现一个circular assembly 的文件,不过一般情况下会有两个option,这两个文件都是正确的,是叶绿体的两个反向重复区域的基因顺序不确定造成的。这个时候想确定哪一个正确的时候,就要做基因注释或者PCR验证。

还有的时候文件会出现*的碱基,这个时候也是软件不能处理一些ambiguous的区域,需要人为将两端的序列比对一下,去掉*号,我组装的结果都没有出现这样的情况,但是对于结果也检查一下有无这种情况出现。

组装质量差的情况下,会出下多个option组装结果,或者仅有多个contigs,这个时候比较麻烦了,就要选择reference genome重新组装或者更换其他的软件,getorganelle也是用于组装叶绿体的软件,据这个软件作者来说,相较于NOVOPlasty有更高的准确性,NOVOplasty速度快,使用简单,能够满足大多数的需求。有时间再把getorganelle软件的用法写一写。

后期检查组装结果的话建议对基因组进行注释,软件推荐Geseq基因注释 rna注释,可视化真的是一键到位,操作也是非常傻瓜,有需要的话给大家介绍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值