补充——重测序数据处理的理论以及其它相关了解内容

补充——重测序数据处理的理论以及其它相关了解内容


补充——重测序数据处理的理论以及其它相关了解内容

所属目录:紫菜

创建时间:2024/7/20

作者:星云<XingYun>

更新时间:2024/7/21

URL:https://blog.csdn.net/2301_78630677/article/details/140570919

前言

这篇博客是对重测序数据处理得到vcf文件的补充,记录了重测序数据处理的理论以及其它相关了解内容


什么是重测序

推荐文章:重测序专题(一)| 一文了解测序技术的发展
百度百科

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel)和结构变异位点(SV)等信息.

rawdata与cleandata

rawdata指的是原始数据,即未经处理或分析的数据。
clean data是raw data经过数据过滤及质控得到的用来分析的数据。

重测序(RADseq)做群体遗传分析套路

转录组扫盲系列–reads如何比对到参考基因组上?

在这里插入图片描述

Fastp

推荐阅读:测序数据质控和预处理之fastp

Fastp 是一种广泛采用的 FASTQ 数据预处理和质量控制工具。它超快且用途广泛,可以在单次数据扫描中执行接头移除、全局或质量修整、读长过滤、去冗余 、碱基校正和许多其他操作。

Getorganelle

github代码仓库:https://github.com/Kinggerm/GetOrganelle

Getorganelle是一款由郁文斌老师开发的一套全新的细胞器基因组组装工具,可以对大规模的细胞器基因组进行快速、准确及自动化组装。

BWA

推荐阅读:BWA使用详解

BWA 是一个高效的序列比对工具,用于将短 reads 比对到长基因组序列上。索引过程将基因组序列分割成多个块,以便在比对过程中快速查找和比较。

bwa软件的作用是将序列比对到参考基因组上,在比对之前,首先需要对参考基因组建立索引。

Samtools

推荐文章:samtools的安装和使用

samtools是一个用于操作sam和bam文件的工具合集。能够实现二进制查看、格式转换、排序及合并等功能,结合sam格式中的flag、tag等信息,还可以完成比对结果的统计汇总。

GATK

推荐阅读:GATK官方教程 / 概述及工作前的布置

GATK 是 Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling 软件之一。

BAM

推荐阅读:理解并操作BAM文件

BAM是目前基因数据分析中最通用的比对数据存储格式,它既适合于短read也适合于长read,最长可以支持128Mbp的超大read!

VCF

推荐阅读:图文详解 VCF 生信格式 (变异信息)

VCF (variant callformat) 文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有分析内容都是基于此文件,如群体结构分析、PCA分析、GWAS关联分析等。


总结

本文主要记录了重测序数据中的一些数据文件以及使用分析软件。
原始数据rawdata、过滤后的清洗数据cleandata、比对数据存储BAM文件、变异信息存储VCF文件;
数据质控和预处理的fastp软件、基因组组装软件Getorganelle、序列比对工具BWA、操作bam文件的Samtools、分析变异信息的软件GATK

2024/7/21

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星石传说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值