EmmettPeng-CSDN博客

原创 MISAG与MIMAG：基因组质量评估标准

宏基因组数据进行分箱（binning）后，需要对得到的宏基因组组装基因组（MAG）进行质量评估。常用的工具是CheckM，主要以每个MAG的completeness与contamination来作为判断指标。Bowers, R., Kyrpides, N., Stepanauskas, R. et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG)

2021-12-26 22:59:37 2182

原创【文献阅读】全球非冗余微生物基因集GMGCv1的构建

本文从全球尺度上14种生境（包括宿主相关与环境）中的宏基因组数据整理了一个标准统一、不含冗余的基因集，称为Global Microbial Gene Catalogue，简称GMGC，后面的v1指的可能是第1版，之后可能还会有进一步的更新。

2021-12-21 16:48:28 2152

原创【编译办法】Apache Log4j2远程代码执行漏洞（CNVD-2021-95914）补丁办法

log4j-2.15.0-rc2.jar编译过程

2021-12-14 14:44:09 3190

原创从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算

背景在进行扩增子分析时，我们拿到的最关键的一个中间数据就是OTU/ASV表，在这个矩阵中，我们能获得我们的分析对象（OTU/ASV）在样本间的分布规律，并通过微生物群落的结构在样本之间的差异来解决一系列的科学问题。其中，我们常常可以通过OTU/ASV在不同样本间的共现关系得到它们之间的相关性关系。在WGS支持下的宏基因组测序分析，通过组装、分箱等步骤可以获得metagenome assembled genomes（MAGs），每一个MAG常被认作一个单菌，我们选取高质量（完整度高、污染率低）的MAG可以

2021-08-09 14:47:50 4745 2

原创 bash脚本中$10的问题

$10? ${10}!

2021-05-26 22:25:08 540

原创【Rosalind Problems】好久没做题了……

做题做题！继续学习！

2021-05-18 17:40:15 226

原创宏基因组分箱CheckM评估结果的提取

CheckM结果转化为易整理的表格形式

2021-05-16 14:36:09 4315 4

原创使用Kaiju无组装计算宏基因组数据物种注释相对丰度

Kaiju，在日语里好像是怪兽的意思！

2021-04-21 14:47:17 4628

原创宏基因组数据二+三代混合组装并计算Read对Contig的深度

OPERA-MS二三代混装与Contig丰度、深度的计算

2021-04-14 18:31:46 4086 1

原创 DNA-蛋白翻译过程的Python实现

引言最近为了给平台上加上一个将DNA序列翻译为蛋白序列的工具，写了一个任何生信玩家初学时都会写的代码。看了一些别人的翻译工具，我也想尽量把代码写的完整一点，在这个过程中首次接触并使用了BioPython，目前看起来还是很好用的。代码#!/bin/python3from Bio.Seq import translate, reverse_complementfrom Bio import SeqIOfrom Bio.SeqIO.FastaIO import SimpleFastaParseri

2021-04-08 15:47:17 2625

原创 BioPython读取FASTA文件保留header中空格的方法

问题最近开始学习使用Biopython这个工具包，非常方便地可以处理一些序列文件。最近用Bio.SeqIO模块进行读取fasta文件到字典中的时候发现一个问题，如果你的fasta文件>开头的那一行header中含有空格的话，该行内容以键存到字典里，这个header会被从第一个空格的地方截断，比如原本的文件是这样的：>Header1 this is the sequence nameATCGATCGATCG读进去之后可能就变成了>Header1解决办法使用descripti

2021-03-30 17:15:17 910

原创用bs4完成html中标签中文本的爬取

其实还是为了昨天的工作（https://blog.csdn.net/Emmett_Bioinfo/article/details/114590394）。经过我查阅了一些资料，我发现用Selenium来做昨天这件事确实是大材小用了，因为获得文本内容其实只需要网页源代码，根本不需要把网页全部显示出来，昨天的做法对于这件事来说是又慢又吃力不讨好。今天学习了一下beautiful soup4干了这件事，代码如下：#!/bin/python3#coding=utf-8#from selenium impor

2021-03-11 16:49:40 646 4

原创初探Selenium：获取网页中的特定标签下的文本信息

工作目的组里师兄最近遇到一个问题，他有一堆有机物化学式需要去http://www.chemspider.com这个网站上看看有没有已知的结构和物质。他的化学式太多，一个一个查肯定效率低下，于是想用代码来做这件事。我之前也是正好瞅见过其他师兄用过selenium这个软件来做浏览器的模拟，想了一下可能自己可以试试这个东西的用法，然后就造出了下面这个代码。代码没空写太多废话，直接上代码：#!/bin/python3#coding=utf-8from selenium import webdriver

2021-03-09 17:24:59 2287

原创 sudo dpkg --configure -a卡在内核更新update-initramfs的解决方案（可能版）

最近在处理数据的时候，需要安装一些新的软件。但是遇到了这样一个问题，纠结了很久查了很多地方，也不知道怎么能行。最关键的是自己不是很了解相关的知识，很多操作也不知道能不能做！我用以下命令安装软件：sudo apt-get install XXXXX这个命令很普通，但是突然有一天它就报错，错误信息是：E: dpkg was interrupted, you must manually run 'sudo dpkg --configure -a' to correct the problem.那你说

2021-02-22 18:54:25 5873

原创宏基因组数据处理 - Nanopore下机数据fast5格式

过年期间，我的三代Nanopore测序数据回来了。本来期待的是几十G的数据吧，结果人家寄来的硬盘上来就是两三T，人直接傻了。经过整理，发现测序公司送来的数据分有两种类型，一种就是我们熟悉的FASTQ格式的文件，只算这些文件的话，应该就是我预料之内的数据量；而数据量中相当大一部分是.fast5格式的文件，我也是第一次处理Nanopore下机数据，这里也是查阅了一些相关的材料，整理下写成一份学习笔记。HDF5格式和FAST5格式.fast5格式实际上是在HDF5格式上的一种变体，不少讲.fast5文件的文档

2021-02-20 14:24:19 3336 2

原创 PBS文件编写备注（2020.12.18 updated）

最近在使用一组集群服务器跑我宏基因组的任务，服务器上跑任务使用的PBS作业提交系统。关于这个PBS系统是个啥东西大家可以自行百度。大概的意思就是一般不能在命令行上直接跑命令，要先将命令和对这个命令的说明（如任务名、节点安排等）写到一个指定的.pbs文件，再把该文件提交至系统，让系统调度文件来运行。我这次使用这个系统的目的是我的很多组宏基因组数据可以在上面并行运行，调用不同的节点，相当于有很多台服务器同步运行，这样能够增加我的效率。花了一段时间整理PBS文件的编写规则和PBS系统的基本命令，自己也摸索了一下

2020-12-17 16:20:23 1130