![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基因组学
文章平均质量分 89
hucy_Bioinfo
这个作者很懒,什么都没留下…
展开
-
plink格式文件的介绍及相互转换
Plink常用的文件格式有两套:map/ped 和 bim/fam/bed。两组文件均没有列名,且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式,读取速度快。原创 2021-11-29 15:16:36 · 20422 阅读 · 2 评论 -
【概念】等位基因相关概念辨析
常见allele相关名词的辨析。原创 2021-11-29 12:33:08 · 14144 阅读 · 3 评论 -
【软件介绍】IGV软件的安装和基本介绍
IGV(Integrative Genomics Viewer)是一个高性能的可视化工具,可以交互式的察看综合的基因组相关数据,友好的支持多种数据类型,包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具,且在不断更新当中,不同版本的IGV可能需要不同的Java版本。原创 2021-10-09 01:35:54 · 14085 阅读 · 0 评论 -
NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
一般变异识别之前需要进行数据预处理,包括序列比对、排序、PCR重复标记、Indel区域重比对和碱基质量重校正等步骤。原创 2021-10-06 22:56:01 · 4942 阅读 · 3 评论 -
NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC
MultiQC是基于Python的小工具,能很好地解决这个问题,其强大的功能主要体现在以下三个方面:(1) 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;(2) 支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;(3) 目前支持整合111种软件分析的结果,而且支持的软件还在持续增加,也可以自己写一个插件。原创 2021-10-02 16:10:03 · 2201 阅读 · 0 评论 -
NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC
一般我们可以从如下几个方面来分析测序数据质量:read各个位置的碱基质量值分布 (Per base sequence quality)碱基的总体质量值分布 (Per sequence quality scores)read各个位置上碱基分布比例 (Per base sequence content)GC含量分布 (Per sequence GC content)read各位置的N含量 (Per base N content)read是否还包含测序的接头序列 (Adapter Content)原创 2021-10-01 17:30:30 · 8118 阅读 · 0 评论 -
NGS数据分析实践:04. 准备测序数据
本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。由于是双端测序,每个样本对应两个文件,分别用R1和R2表示。公司返回了原始下机数据(Raw data)和过滤后数据(Clean data),数据文件格式均为.fastq.gz。原创 2021-09-30 02:45:03 · 1838 阅读 · 0 评论 -
NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。原创 2021-09-29 17:31:32 · 2862 阅读 · 0 评论 -
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。原创 2021-09-29 10:33:42 · 2341 阅读 · 0 评论 -
NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。原创 2021-09-28 07:00:00 · 1124 阅读 · 0 评论 -
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间。原创 2021-09-27 16:54:27 · 1352 阅读 · 0 评论 -
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。原创 2021-09-27 16:42:29 · 2346 阅读 · 0 评论 -
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:02. 参考基因组及注释库的下载原创 2021-09-22 22:44:27 · 1871 阅读 · 0 评论 -
NGS数据分析实践:01. Conda环境配置及软件安装
Conda是版本控制和生信工具安装的一大神器。Conda是在Windows,macOS和Linux上运行的开源软件管理系统和环境管理系统。Conda可以快速安装,运行和更新软件包及其依赖的环境与工具。Conda可以轻松地在本地计算机上的环境中创建,保存,加载和切换。它是为Python程序创建的,但可以适用于任何语言的软件。原创 2021-09-19 01:55:52 · 1855 阅读 · 0 评论 -
NGS数据分析实践:00. 变异识别的基本流程
变异识别过程可以分成3大块:1. 原始数据质控;2. 数据预处理;3. 变异识别。大致可以细分为6个部分:(1) 原始测序数据的质控;(2) read比对,排序和标记PCR重复序列;(3) Indel区域局部重比对;(4) 碱基质量值重校正;(5) 变异检测;(6) 变异结果质控和过滤。原创 2021-09-18 23:04:34 · 2606 阅读 · 1 评论 -
二代测序方法:DNA测序之靶向重测序
NGS技术正逐年成熟,这使得全基因组测序的成本越来越低,但是对全基因组进行测序后得到的极其庞大、繁杂的数据量的分析工作并没有随之一起变得更加简单。相反,测序技术的发展出现了两个极端的方向:一种是大而全的全基因组测序,一种是小而精的靶向重测序。原创 2021-09-18 03:38:47 · 8865 阅读 · 0 评论 -
【数据库】SRA数据库介绍及数据下载
NCBI - SRA(Sequence ReadArchive)数据库是NCBI用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent等,这个数据库是可以免费无限制下载的。当然,也可以到EBI - ENA数据库直接下载fastq .gz文件。原创 2021-09-02 21:13:08 · 3880 阅读 · 0 评论 -
【软件介绍】GWAS meta分析软件:METAL
Meta-analysis是对多个GWAS分析结果进行综合评价。METAL是GWAS meta分析最常用的工具之一,本文简单介绍METAL软件基本用法。原创 2021-06-16 22:39:07 · 10420 阅读 · 20 评论