NGS测序数据处理
文章平均质量分 68
分享二代测序数据的处理方法,包括基因组测序,转录组测序等等
Gossie
不恋虚名列夏花,洁身碧野布云霞。寒来舍子图宏志,飞雪冰冬暖万家。(--左河水)
展开
-
转录组分析流程:比对(有参)及统计Counts矩阵
样本:ChengShuaiShuai 早熟转录组 72个Ref: UTX_TM1_2.11. 质控fastqc *multiqc *trimmomatic_run.sh #去掉前9个碱基2. 比对gffread annotation.gff3 -T -o annotation.gtfhisat2_extract_splice_sites.py .UTX.gtf >UTX.gene.sshisat2_extract_exons.py UTX.gene.gtf >UTX.ge原创 2021-04-24 19:55:56 · 2692 阅读 · 0 评论 -
用GATK进行二代测序数据 SNP Calling 流程:(四)变异过滤
GATK推荐的最好的过滤方式是用 VQSR功能,它通过机器学习算法来判断SNP的优劣,因此至少需要两个已存在的 SNP 数据集,一个是经过验证的高质量 SNP 数据集作为真集(如 HapMap),还需要一个质量不是特别高,允许存在小部分假阳性的数据集做训练集(如,1000G)。这些数据集在人类研究中很容易找到,但是在植物中比较困难,因此本流程用硬过滤(hard-filtering)的方法进行变异过滤。提取SNP和INDELSNP 和 INDEL 的过滤参数有所不同,因此分开过滤。#vcf索引nohu原创 2020-10-27 21:49:32 · 22086 阅读 · 10 评论 -
用GATK进行二代测序数据 SNP Calling 流程:(三)GenomicsDBImport 的多样本变异检测
1. Genomics Database对于群体数据来说,多样本同时时行 SNP Calling 的准确度要优于单个样本的 SNP Calling.GATK3 的多样本 SNP Calling 功能是 CombineGVCFs,GATK4 新出了 GenomicsDBImport功能,官网建议它适合1000个样本以上的 SNP Calling,但是它的另一个优点是可扩展性,即随时可以向 database 里添加新的材料,以扩大群体数量,而不用对旧的数据再从头操作一次。Tips:GenomicsDBIm原创 2020-10-26 20:51:12 · 9497 阅读 · 6 评论 -
用GATK进行二代测序数据 SNP Calling 流程:(二)bwa比对和HaplotypeCaller 变异检测
1. 创建基因组索引bwa index genome.fa2. 查看read group信息,按read group分组, 比对、合并,生成gvcf由于数据太多,无法存储过多的中间文件,因此写了一个脚本,边运行边删除中间文件,过程包括:解压,按read group分组。(RG(read group) 信息非常重要,GATK需要通过RG来判断碱基测序质量。我的一个样品的测序数据可能会来自不同的Cell,不同的lane、flowcell,甚至不同的机器,这在重测序中比较常见。因此,我将一个fastq原创 2020-10-26 20:14:46 · 7884 阅读 · 12 评论 -
用GATK进行二代测序数据 SNP Calling 流程:(一)质控
1. 查看原始reads质量fastqc -t 40 *multiqc ./ -o /testfastqc 软件用于查看每个fastq文件的质量,multiqc软件可以收集fastqc的结果,在大数据量的时候便于查看/test为fastqc的结果文件夹。2.低质量reads处理#用trimmomatic对进行测序数据质量控制#需要一个包含样本名称的单列文件#线程t=8# 模式PE(双端)或者SE(单端)mode='PE'#以下参数适情况修改、添加。#ILLUMINACLIP模式原创 2020-10-26 15:21:43 · 3730 阅读 · 0 评论