![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生物信息学
文章平均质量分 68
EmmettPeng
Ph.D. student / RCEES, CAS / Deng Lab
展开
-
MISAG与MIMAG:基因组质量评估标准
宏基因组数据进行分箱(binning)后,需要对得到的宏基因组组装基因组(MAG)进行质量评估。常用的工具是CheckM,主要以每个MAG的completeness与contamination来作为判断指标。Bowers, R., Kyrpides, N., Stepanauskas, R. et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG)原创 2021-12-26 22:59:37 · 1991 阅读 · 0 评论 -
【文献阅读】全球非冗余微生物基因集GMGCv1的构建
本文从全球尺度上14种生境(包括宿主相关与环境)中的宏基因组数据整理了一个标准统一、不含冗余的基因集,称为Global Microbial Gene Catalogue,简称GMGC,后面的v1指的可能是第1版,之后可能还会有进一步的更新。原创 2021-12-21 16:48:28 · 2004 阅读 · 0 评论 -
从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一系列的科学问题。其中,我们常常可以通过OTU/ASV在不同样本间的共现关系得到它们之间的相关性关系。在WGS支持下的宏基因组测序分析,通过组装、分箱等步骤可以获得metagenome assembled genomes(MAGs),每一个MAG常被认作一个单菌,我们选取高质量(完整度高、污染率低)的MAG可以原创 2021-08-09 14:47:50 · 4481 阅读 · 2 评论 -
bash脚本中$10的问题
$10? ${10}!原创 2021-05-26 22:25:08 · 503 阅读 · 0 评论 -
宏基因组分箱CheckM评估结果的提取
CheckM结果转化为易整理的表格形式原创 2021-05-16 14:36:09 · 4072 阅读 · 4 评论 -
使用Kaiju无组装计算宏基因组数据物种注释相对丰度
Kaiju,在日语里好像是怪兽的意思!原创 2021-04-21 14:47:17 · 4440 阅读 · 0 评论 -
宏基因组数据二+三代混合组装并计算Read对Contig的深度
OPERA-MS二三代混装与Contig丰度、深度的计算原创 2021-04-14 18:31:46 · 3864 阅读 · 1 评论 -
DNA-蛋白翻译过程的Python实现
引言最近为了给平台上加上一个将DNA序列翻译为蛋白序列的工具,写了一个任何生信玩家初学时都会写的代码。看了一些别人的翻译工具,我也想尽量把代码写的完整一点,在这个过程中首次接触并使用了BioPython,目前看起来还是很好用的。代码#!/bin/python3from Bio.Seq import translate, reverse_complementfrom Bio import SeqIOfrom Bio.SeqIO.FastaIO import SimpleFastaParseri原创 2021-04-08 15:47:17 · 2539 阅读 · 0 评论 -
BioPython读取FASTA文件保留header中空格的方法
问题最近开始学习使用Biopython这个工具包,非常方便地可以处理一些序列文件。最近用Bio.SeqIO模块进行读取fasta文件到字典中的时候发现一个问题,如果你的fasta文件>开头的那一行header中含有空格的话,该行内容以键存到字典里,这个header会被从第一个空格的地方截断,比如原本的文件是这样的:>Header1 this is the sequence nameATCGATCGATCG读进去之后可能就变成了>Header1解决办法使用descripti原创 2021-03-30 17:15:17 · 846 阅读 · 0 评论 -
宏基因组数据处理 - Nanopore下机数据fast5格式
过年期间,我的三代Nanopore测序数据回来了。本来期待的是几十G的数据吧,结果人家寄来的硬盘上来就是两三T,人直接傻了。经过整理,发现测序公司送来的数据分有两种类型,一种就是我们熟悉的FASTQ格式的文件,只算这些文件的话,应该就是我预料之内的数据量;而数据量中相当大一部分是.fast5格式的文件,我也是第一次处理Nanopore下机数据,这里也是查阅了一些相关的材料,整理下写成一份学习笔记。HDF5格式和FAST5格式.fast5格式实际上是在HDF5格式上的一种变体,不少讲.fast5文件的文档原创 2021-02-20 14:24:19 · 3127 阅读 · 2 评论 -
Metagenome Assembly - Part2:[文献阅读] Why are de Bruijn graphs useful for genome assembly?
跟着欧拉的小蚂蚁一起爬吧!原创 2020-10-31 16:31:43 · 397 阅读 · 0 评论 -
Metagenome Assembly - Part1:基于德布莱英图(De Bruijn graph)的宏基因组de novo拼接
基因组学中的一笔画问题——Reads怎么拼接成重叠群(Contigs)原创 2020-10-25 16:14:23 · 3103 阅读 · 0 评论