![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Bioinformatics analysis
文章平均质量分 54
-麦_子-
天道酬勤
展开
-
samtools flagstat 统计结果的理解
14608455 + 0 in total (QC-passed reads + QC-failed reads) ## reads总数37967 + 0 secondary ##出现比对到参考基因组多个位置的reads数0 + 0 supplementary ##可能存在嵌合的reads0 + 0 duplicates ##重复的reads数14590894.转载 2021-10-13 09:18:26 · 2752 阅读 · 0 评论 -
二代测序的比对算法
现在主流的比对软件不下十种,但按照核心算法区分,其实可以拆分成为两大阵营:1.基于哈希表(hash-table)数据结构的比对算法2.Burrows Wheeler transform(BWT)索引数据结构的比对算法首先,我们来了解一下第一类比对算法hash-table的核心思想就是采用种子序列定位及延伸算法(seed-and-extend algorithm)根据索引构建对象的不同,可以分为两类,第一种,基于参考基因组(reference genome)索引的的延伸比对通过转载 2021-10-11 15:15:40 · 1150 阅读 · 0 评论 -
如何用fastq-dump把sra转成fastq
sra是NCBI 推出的存储高通量数据的格式,下载后我们需要把sra 转成fastq,然后进行生信分析。下面分别讲一下下载和使用:下载下载地址:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software选择适合自己的下载版本,下载后解压(解压命令:tar zxvf *.tar.gz)即可使用,转换软件(fastq-dump)位于bin文件夹下..原创 2020-12-16 10:34:00 · 4860 阅读 · 0 评论 -
收藏!生物信息学数据库大全,全网最全收集整理!
综合数据库★ INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。★ EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。http://www.ebi.ac.uk/embl.html★ GenBank ,美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。http://www.ncbi.nlm....转载 2020-10-15 11:24:55 · 6019 阅读 · 0 评论 -
通过深度学习鉴定12种癌症
刚刚发表了一片文章,欢迎来交流探讨。https://www.nature.com/articles/s41598-019-53989-3背景:由大量研究表明,癌症是由于基因突变导致的,但是癌症具体的发病原理并没有研究清楚,只知道与一些基因有关,但这些基因与癌症并没有呈现出绝对的相关性。这是因为基因表达是一个完整复杂的网络调控过程。而基于多个隐藏层和非线性变换的深度学习完美适用于端对端模...原创 2019-11-26 10:27:17 · 1055 阅读 · 0 评论 -
质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响
最近在学习质控知识时, 对于质量值体系及转换产生了一些疑问, 作了一些尝试, 趁集群故障, 在此总结一下质量值体系相比之前培训时所学的质控内容, (我拿到的) 流程中还多了一步 phred33to64, 也就是把 .fastq 格式的数据从 Phred33 质量值体系转换为 Phred64 质量体系, 于是先补充学习了下质量值体系:首先要从质量值说起, 测序仪器下机数据的 fastq ...转载 2019-01-04 10:35:19 · 4632 阅读 · 0 评论 -
人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38
如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下:1)GRCH37,b37,hs37d5(b37+decoy)与hg19、GRCH38(hg38)的来源: hg19来自UCSC,GRCH37来自NCBI,b37来自千人基因组第一期,建议使用的是b37的升级版hs37d5,来源于千人基因组计划第二期,也是目前Broad正在使用的两个基于hg...转载 2018-11-13 17:16:00 · 17528 阅读 · 0 评论 -
Samtools详解
序列比对如今序列比对已成为各种生物学分析中不可缺少的重要环节,通过将未知的基因片段与已知具体信息的基因或基因组进行比较,并分析其中的相同部分与差异部分,就可以得到该基因片段SNP位点、所属物种以及可能具有的生物学功能等重要信息。sam与bam 格式sam与bam是两种最常用的比对结果输出文件格式,如转录组Tophat分析软件输出的比对结果为.bam文件,而BWA、bowtie等比对软件...转载 2018-10-29 14:05:25 · 16456 阅读 · 2 评论 -
Circos从入门到精通
Circos从入门到精通原创 2016-09-12 14:34:08 · 28398 阅读 · 3 评论 -
Fst详解(具体计算步骤)
Fst,用于衡量种群分化程度,取值从0到1,为0则认为两个种群间是随机交配的,基因型完全相似;为1则表示是完全隔离的,完全不相似。它往往从基因的多样性来估计,比如SNP或者microsatellites(串联重复序列一种,长度小于等于10bp)。是一种以哈温平衡为前提的种群遗传学统计方法。 下面从一个例子来看如何计算Fst: AA Aa aa 种群1...原创 2016-09-26 17:41:01 · 33294 阅读 · 6 评论 -
SAM格式详解
SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。原创 2016-06-16 14:40:05 · 26517 阅读 · 2 评论 -
连锁不平衡的计算方法
连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象。我们一般用D,D'和r2来表示LD的程度. D,D'和r2的计算方法。原创 2016-10-11 15:57:31 · 29428 阅读 · 1 评论 -
RSAT(Regulatory Sequence Analysis Tools)详解
RSAT(Regulatory Sequence Analysis Tools)详解,调控序列分析工具原创 2016-09-18 17:54:32 · 2199 阅读 · 3 评论 -
BWA使用说明
BWA使用说明原创 2016-06-16 10:57:31 · 18045 阅读 · 0 评论 -
SOAP2详解
SOAP2是SOAP的升级版本,提高了短序列比对的运行速度和精度,同时SOAP2的一个重要改进是支持不同长度的读长。原创 2016-06-07 16:41:29 · 7107 阅读 · 0 评论 -
VCF格式详解
1. 什么是VCF?CVF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支持,当然SAMtools得到的结果也是CVF格式,和GATK的CVF格式有点差别。2. VCF的主体结构先给出一个VCF文件的范例:##fileformat=VCFv4.0 ##FILTER= ##FORMAT= ##FORMAT= ##FORMAT= #转载 2016-05-18 10:59:53 · 4352 阅读 · 0 评论