补充——重测序数据处理的理论以及其它相关了解内容
补充——重测序数据处理的理论以及其它相关了解内容
所属目录:紫菜
创建时间:2024/7/20
作者:星云<XingYun>
更新时间:2024/7/21
URL:https://blog.csdn.net/2301_78630677/article/details/140570919
前言
这篇博客是对重测序数据处理得到vcf文件的补充,记录了重测序数据处理的理论以及其它相关了解内容
什么是重测序
全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel)和结构变异位点(SV)等信息.
rawdata与cleandata
rawdata指的是原始数据,即未经处理或分析的数据。
clean data是raw data经过数据过滤及质控得到的用来分析的数据。
Fastp
推荐阅读:测序数据质控和预处理之fastp
Fastp 是一种广泛采用的 FASTQ 数据预处理和质量控制工具。它超快且用途广泛,可以在单次数据扫描中执行接头移除、全局或质量修整、读长过滤、去冗余 、碱基校正和许多其他操作。
Getorganelle
github代码仓库:https://github.com/Kinggerm/GetOrganelle
Getorganelle是一款由郁文斌老师开发的一套全新的细胞器基因组组装工具,可以对大规模的细胞器基因组进行快速、准确及自动化组装。
BWA
推荐阅读:BWA使用详解
BWA 是一个高效的序列比对工具,用于将短 reads 比对到长基因组序列上。索引过程将基因组序列分割成多个块,以便在比对过程中快速查找和比较。
bwa软件的作用是将序列比对到参考基因组上,在比对之前,首先需要对参考基因组建立索引。
Samtools
推荐文章:samtools的安装和使用
samtools是一个用于操作sam和bam文件的工具合集。能够实现二进制查看、格式转换、排序及合并等功能,结合sam格式中的flag、tag等信息,还可以完成比对结果的统计汇总。
GATK
推荐阅读:GATK官方教程 / 概述及工作前的布置
GATK 是 Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling 软件之一。
BAM
推荐阅读:理解并操作BAM文件
BAM是目前基因数据分析中最通用的比对数据存储格式,它既适合于短read也适合于长read,最长可以支持128Mbp的超大read!
VCF
推荐阅读:图文详解 VCF 生信格式 (变异信息)
VCF (variant callformat) 文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有分析内容都是基于此文件,如群体结构分析、PCA分析、GWAS关联分析等。
总结
本文主要记录了重测序数据中的一些数据文件以及使用分析软件。
原始数据rawdata、过滤后的清洗数据cleandata、比对数据存储BAM文件、变异信息存储VCF文件;
数据质控和预处理的fastp软件、基因组组装软件Getorganelle、序列比对工具BWA、操作bam文件的Samtools、分析变异信息的软件GATK
2024/7/21