【数据质控】
leadingsci
伍泳彰,华中科技软件工程硕士。深耕测序行业10年,拥有从0到1的平台搭建经验,能从原始样本核酸提取、测序实验、生信分析、报告解读的全流程独立完成。2012年就职于广州生物岛首批首家企业,开始从事高通量测序行业,第一发明人专利5篇,获2021年中国专利奖。先后负责搭建了,华南首台Life PGM高通量测序平台、全国首个翻译组测序Life Proton高通量测序平台,广州首个illunima的Novaseq高通量测序平台,2000平医检遗传NGS平台。涵盖组学:遗传全外、CNV-Seq、全转录组、宏基因组。具有熟练的Python编程和企业级生信分析流程搭建的能力,具有从生信指导测序实验问题的能力。
展开
-
0066-【数据质控】-高通量下机数据的Duplication来源分析
一、什么是Duplicated Reads1、谈到NGS数据的duplicated reads(暂且翻译为“重复数据”),我们通常会直观地认为:duplicated reads是在NGS文库构建过程中,由于PCR过度扩增导致同一个模板DNA片段被反复测序多次,得到一模一样的reads。2、但是这经不起推敲。仔细一想,就很困惑。 PCR不就是用来产生重复数据的吗?否则不叫PCR了。除了PC...转载 2018-08-28 14:12:23 · 3064 阅读 · 0 评论 -
0067-【数据质控】-MiSeq测16S文库时,为什么要加PhiX?
原因:碱基不平衡导致,在照片重叠后,难以通过光的强度来进行空间校正测定混合微生物群的16S的若干个片段,从其可变区的序列来进行菌落组成分序,已是很常用的实验方法。 自从MiSeq测序平台推出PE300的测序方式之后,用PE300来测16S的V1、V2、V3区,已成了最常用的菌落分析手段。 但是每次我提醒用户:在做16S文库测序的上机时,建议加入70%的PhiX文库。用户都会感到不解:为什么...转载 2018-08-28 14:15:37 · 1025 阅读 · 0 评论 -
0068-【数据质控】-Illumina的Barcode的设计用于16S测序
对于16S接头涉及还有更多国外经典图示文章。如一步法扩增来构建文库,两步法扩增来构建文库。下面为来源一个博客的文章。Illumina测序平台无疑是市场上众多二代测序平台中的翘楚,高通量、高质量、低成本,操作简便,重现性好,各种好处使他的成绩在同班众兄弟中遥遥领先,公认为学霸。要想把Illumina平台用到极致,则样本的碱基平衡度是七寸和肯綮,不得不加以关注。只要把握好这一点,二代测序就能成...转载 2018-08-28 14:22:16 · 3319 阅读 · 0 评论 -
0069-【数据质控】-测序下机数据统计方法
下机数据的格式一般为fq.gzfastq序列条数统计压缩格式解压,统计行数除以4# 通常以fastq.gz格式压缩zcat input.fastq.gz | awk 'NR%4==2{c++} END{print c}'# 推荐下面的方法 pigz 会比gzip快10倍pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{prin...转载 2018-08-28 14:25:37 · 2275 阅读 · 0 评论