生信分析
文章平均质量分 88
weixin_39900139
这个作者很懒,什么都没留下…
展开
-
开箱即用版本 满分室间质评之GATK Somatic SNV+Indel+CNV+SV(20240430更新)
使用校准表对bam碱基质量校准,因为这一步gatk效率感人,所以同时计算insertsize,拆分interval list(后续mutect2并行运行需要),运行cnvkit batch,运行samtools depth计算测序深度,samtools flagstat 统计mapping比例及质量。编写脚本处理cnvkit输出,计算cnv基因,exon位置,gain/lost,cn数。编写脚本处理manta的输出,获取最终sv输出结果,起始位置,基因、频率等。使用cnvkit提供工具输出分布图和热图。原创 2023-10-07 09:57:40 · 332 阅读 · 0 评论 -
使用宏基因组的方法快速鉴定新冠病毒SARS-CoV2
使用宏基因组的方法快速鉴定新冠病毒SARS-CoV2原创 2022-12-07 22:50:24 · 900 阅读 · 0 评论 -
靶向分析流程(Pipeline)中的数据质控
从输出文件${sn}_fastp.json文件中获取过滤前后Q20,Q30比例,总的reads从输出文件${sn}_marked.flagstat文件中获取mapping的一些信息,比如mapping比例,比对到参考基因组上的比例输出所有区域文件${ref.bed}位点的测序深度,然后统计整体的测序深度,比如1× 10× 20× 等测序深度下的覆盖率,总体的平均测序深度和中位数测序深度gatk CollectInsertSizeMetrics (其实是整合进去的pcard)...原创 2022-08-28 21:15:01 · 510 阅读 · 0 评论 -
NMPA已注册肿瘤小Panel试剂盒生物信息学分析内容对比
Illumina Sequencing Analysis Viewer v2.4.5 分析每批次数据Q30比例Q30≥75%通过;原创 2022-08-13 19:56:17 · 371 阅读 · 0 评论 -
基于docker的生信基础环境镜像构建
这里参考snakemake的写法,每个分析步骤创建一个yaml文件,里面是用到的软件及版本。首次运行检测该步骤环境存在,不存在先安装软件初始化。fastqc.yaml文件如下,文件位于/opt/config目录下。原创 2022-08-11 22:24:51 · 498 阅读 · 0 评论 -
转录组RNA-Seq使用docker+bioconda实现分析环境搭建
转录组RNA-Seq使用docker+bioconda搭建分析环境前言近期学习转录组分析,从ncbi下载数据,转成fastq,STAR/hisat2 map到基因组上,使用featureCount拿到表达矩阵文件挺顺利的,就是到了下游分析,开始使用R开始遇到了各种问题。原因是之前一直使用的一个docker 环境是基于ubuntu 16.04的,上面的R版本是3.2.3,在进行下游分析的时候各种R包安装不上,原因也是R版本太旧。经历了各种问题之后终于忍无可忍,决心重新构建一个RNA-Seq的docker原创 2020-10-10 22:04:44 · 1443 阅读 · 4 评论 -
满分室间质评之GATK Somatic SNV+Indel+CNV+SV(下)性能优化
我们接上文:满分室间质评之GATK Somatic SNV+Indel+CNV+SV一文中实现了对于卫计委室间质评数据分析以及与满分结果的匹配。本文将着重解决,保证最终结果一致的情况下,如何优化分析性能(并行化),如何将分析时间从 3h 59m 53s缩短至 1h 10m 38s。优化的方向:实际运行GATK4.X的工具如Mutect2时,发现其运行效率相当低,从CPU占用率,内存占用,硬盘I/O都占用很低,起初自己DIY时候,将要分析的bed/interval_list文件按照染色体编号拆分(不太确定原创 2020-08-04 15:56:28 · 2945 阅读 · 0 评论 -
满分室间质评之GATK Somatic SNV+Indels+CNV+SV(上)
卫计委在2017年,2019年,2020年(还没有答案)提供标准数据用于肿瘤生信分析的室间质评。这样预知结果的数据自然是不能放过了,本文尝试参考GATK Best Practice:Somatic SNVs + Indels ,Cnvkit,Manta的pipeline来完成满分流程分析,也可以使用标准数据反向判断GATK Mutect2的实际准确度,算法优劣。注:本文仅用于学习,距离真正的临床应用还有相当大距离,欢迎大佬批评指正**1. 分析流程概览如下:2. 本文用到的分析系统及分析流程文件原创 2020-07-31 14:02:18 · 3241 阅读 · 1 评论 -
使用docker完成生信分析环境搭建
生信开发人员最头疼的问题,可能就是平台搭建和软件安装了。部署和迁移上要费很大力气。本文讲述使用docker制作一个镜像,后续通过导入自己定制的镜像,复制文件完成分析流程的部署和迁移。如何使用docker,推荐阅读 Docker — 从入门到实践一、准备工作首先我们需要对手头的pipeline做一个分类。为了保持docker镜像尽可能的小,不能将所有文件全部放在docker镜像里面,需要外...原创 2019-12-12 11:43:57 · 1179 阅读 · 1 评论 -
图形化开放式生信分析系统开发 - 9 Illumina测序仪测序数据自动拆分
前文链接:图形化开放式生信分析系统开发 - 1 需求分析及技术实现图形化开放式生信分析系统开发 - 2 样本信息处理图形化开放式生信分析系统开发 - 3 生信分析流程的进化图形化开放式生信分析系统开发 - 4 生信分析流程的图形化图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行图形化开放式生信分析系统开发 - 6 生信分析流程批量运行与过程控制图形化开放式生信分析系统...原创 2019-12-05 10:05:54 · 2164 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 8 软件稳定性测试
前文链接:图形化开放式生信分析云平台产品开发 - 1 需求分析及技术实现图形化开放式生信分析云平台产品开发 - 2 样本信息处理图形化开放式生信分析云平台产品开发 - 3 生信分析流程的进化图形化开放式生信分析云平台产品开发 - 4 生信分析流程的图形化图形化开放式生信分析云平台产品开发 - 5 生信分析流程服务器端运行图形化开放式生信分析云平台产品开发 - 6 生信分析流程批量运行...原创 2019-12-02 15:46:51 · 370 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 7 分析报告的模板定制与自动生成
前文链接:图形化开放式生信分析云平台产品开发 - 1 需求分析及技术实现图形化开放式生信分析云平台产品开发 - 2 样本信息处理图形化开放式生信分析云平台产品开发 - 3 生信分析流程的进化图形化开放式生信分析云平台产品开发 - 4 生信分析流程的图形化图形化开放式生信分析云平台产品开发 - 5 生信分析流程服务器端运行图形化开放式生信分析云平台产品开发 - 6 生信分析流程批量运行...原创 2019-12-02 14:34:24 · 614 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 6 生信分析流程批量运行与过程控制
前文链接:生信分析云平台产品开发 - 1 需求分析及技术实现生信分析云平台产品开发 - 2 样本信息处理生信分析云平台产品开发 - 3 生信分析pipeline的进化生信分析云平台产品开发 - 4 生信分析pipeline的图形化生信分析云平台产品开发 - 5 生信分析pipeline服务器端运行在上文生信分析云平台产品开发 - 5 生信分析pipeline服务器端运行 解决了...原创 2019-12-02 14:59:10 · 446 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 5 生信分析流程服务器端运行
前文链接:图形化生物信息分析系统开发 - 1 需求分析及技术实现图形化生物信息分析系统开发 - 2 样本信息处理图形化生物信息分析系统开发 - 3 生信分析pipeline的进化图形化生物信息分析系统开发 - 4 生信分析pipeline的图形化在上文图形化生物信息分析系统开发 - 4 生信分析pipeline的图形化 讨论了生信分析pipeline的图形化,如何用图形的方式显示...原创 2019-12-02 14:58:02 · 688 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 4 生信分析流程图形化设计
前文链接:自动化图形生物信息分析系统开发 - 1 需求分析及技术实现自动化图形生物信息分析系统开发 - 2 样本信息处理自动图形化开放式生信分析系统开发 - 3 生信分析pipeline的进化在上文自动图形化开放式生信分析系统开发 - 3 生信分析pipeline的进化 讨论了生信分析pipeline的进化,从手动到自动,但仍然停留在终端命令行阶段,为了让更多非生信专业的人能够使用...原创 2019-12-02 14:33:18 · 1093 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 3 生信分析流程的进化
接上两篇内容,本文主要讲述工作中NGS从科研进入医学临床领域,工作中接触到生信流程,以及最终在自动图形化开放式生信分析系统开发中生信workflow设计实现的过程。接触二代测序,生信分析,那真是打开了一个新世界的大门,各种名次术语满天飞,搞的头晕脑胀。什么“什么是高通量测序/NGS”、Sanger法测序(一代测序)、外显子测序(whole exon sequencing)、mRNA测序 (...原创 2019-12-02 14:32:55 · 1173 阅读 · 0 评论 -
图形化开放式生信分析系统开发 - 2样本信息处理
一、基于生信分析云平台的需求,在下图中可以看出样本信息在整个软件中的作用样本信息用于数据拆分、运行运行流程、分析报告,是整个系统的基础数据之一。下面来具体归纳一下样本信息在软件系统的作用并列出详细的数据字段:1、用于标记分析运行状态的 序号 字段名称 数据类型 作用 1 ...原创 2019-12-02 14:32:27 · 726 阅读 · 0 评论