生信步骤
文章平均质量分 84
生物信息流程梳理
学术程稻属
中科院遗传发育所在读博士,研究水稻,关注植物免疫和群体遗传进化,经常摸鱼学生信。同名简书分享文献,欢迎围观~
展开
-
生信步骤|Orthofinder寻找直系同源基因
在探究功能基因的时候,我们经常需要对所研究的基因/蛋白质进行聚类分组,逐个类群探究蛋白功能。创建同源群可以采用Otrhofinder软件,该软件安装方便,运行快速,调用简单,可以说是构建同源群的神器。从OrthoFinder2.4.0版本开始,同源群的划分给予有根树的层次,这种划分方法比依靠相似度要更加准确。原创 2024-01-12 19:25:10 · 1184 阅读 · 0 评论 -
生信步骤|EffectorP批量预测病原物效应子
EffectorP软件利用机器学习原理,通过事先收集已知的效应子制备训练集,从而实现病原真菌和卵菌的效应子预测。最初在16年发表于NEW PHYTOLOGIST,实现了机器学习初步预测效应子。在18年发表于MPP,采用了更大的训练集和模型集成的方法,准确度更高。在22年发表于MPMI,是目前最新的版本。其实现了效应子的空间定位预测,同时新增了对卵菌效应子的预测。EffectorP3.0正训练集采用64个质外体效应子(50个真菌效应子,14个卵菌效应子)和112个胞质效应子(77真菌,35卵菌)构成。原创 2023-05-15 12:07:08 · 608 阅读 · 1 评论 -
生信步骤|原核生物基因组注释--Prokka
全基因组注释是鉴定生物基因组特征的过程。Prokka是一个适用于原核生物基因组注释工具,可以注释细菌,古菌和病毒基因组。Prokka在预测基因组CDS区域时采用了多种数据库,内置的三个核心数据库包括ISfinder数据库,NCBI细菌抗性数据库和UniprotKB数据库。此外,prokka内置基因CDS预测工具prodigal引用量较高,是目前十分可靠的原核生物基因组快速注释工具。原创 2023-05-14 21:13:42 · 1382 阅读 · 0 评论 -
生信步骤|MAFFT结合HMMER进行多序列比对和基于隐马模型的基因搜索
蛋白质都是由相似的小型结构域组成的。如果我们有若干个已知的蛋白序列,那我们就可以根据这些蛋白序列比较其含有的保守域,寻找在蛋白数据库中上是否也有一样保守域的蛋白。而后根据统计学模型,将显著性较高的蛋白序列预测为同一类基因家族蛋白。随着蛋白质数据库的日趋完善,使用蛋白质结构域进行序列比对相比起传统的序列全长比对更具优势。对于每个蛋白质家族,通常有数千个已知的同源蛋白可以比对成较深的多重序列。序列比对揭示了一种特定于该结构域的结构和功能的进化模式(profile)。这些模式可以用概率模型捕捉到。原创 2022-11-19 11:22:28 · 2802 阅读 · 1 评论 -
生信步骤|转录组mRNA数据的有参组装
转录组的组装能够提供丰富的组学信息,是生物信息学中重要的基础步骤。测序的下机数据经过过滤,比对,排序,组装,最终得到转录本的全部序列信息。下面我们以稻瘟菌测序数据SRR081556作为例子演示转录组组装的过程。原创 2022-11-04 17:02:32 · 2291 阅读 · 0 评论 -
生信步骤|kmc+genomescope进行基因组调查
在组装未知基因组时,往往需要利用重测序数据提前进行基因组调查,以获取其基因组规模,杂合率,重复序列比例,GC含量等信息。从而更好地拟定后继测序策略。原创 2022-09-14 10:04:20 · 2519 阅读 · 3 评论 -
生信步骤|转录组测序上游分析:hisat2+samtools+stringtie
转录组分析在当下研究功能基因组领域十分常用。相关软件组合种类也十分丰富,本文采用了hisat2+samtools+stringtie策略从转录组数据中挖掘差异表达基因。在这里小编整理了一下此套组合的执行流程,以供日后查阅;同时分享在平台,如果能帮助到更多初学者,小编将不甚荣幸,如有谬误也希望各路大佬批评指正。先从整体上看一下软件们所执行的功能:hisat2:建立参考基因组索引,reads的比对samtools:sam2bam的转化stringtie:估算转录本表达量原创 2022-01-12 12:53:49 · 6735 阅读 · 6 评论