杂七杂八的Python小代码
EmmettPeng
Ph.D. student / RCEES, CAS / Deng Lab
展开
-
【Rosalind Problems】好久没做题了……
做题做题!继续学习!原创 2021-05-18 17:40:15 · 226 阅读 · 0 评论 -
宏基因组分箱CheckM评估结果的提取
CheckM结果转化为易整理的表格形式原创 2021-05-16 14:36:09 · 4325 阅读 · 4 评论 -
DNA-蛋白翻译过程的Python实现
引言最近为了给平台上加上一个将DNA序列翻译为蛋白序列的工具,写了一个任何生信玩家初学时都会写的代码。看了一些别人的翻译工具,我也想尽量把代码写的完整一点,在这个过程中首次接触并使用了BioPython,目前看起来还是很好用的。代码#!/bin/python3from Bio.Seq import translate, reverse_complementfrom Bio import SeqIOfrom Bio.SeqIO.FastaIO import SimpleFastaParseri原创 2021-04-08 15:47:17 · 2636 阅读 · 0 评论 -
BioPython读取FASTA文件保留header中空格的方法
问题最近开始学习使用Biopython这个工具包,非常方便地可以处理一些序列文件。最近用Bio.SeqIO模块进行读取fasta文件到字典中的时候发现一个问题,如果你的fasta文件>开头的那一行header中含有空格的话,该行内容以键存到字典里,这个header会被从第一个空格的地方截断,比如原本的文件是这样的:>Header1 this is the sequence nameATCGATCGATCG读进去之后可能就变成了>Header1解决办法使用descripti原创 2021-03-30 17:15:17 · 912 阅读 · 0 评论 -
用bs4完成html中标签中文本的爬取
其实还是为了昨天的工作(https://blog.csdn.net/Emmett_Bioinfo/article/details/114590394)。经过我查阅了一些资料,我发现用Selenium来做昨天这件事确实是大材小用了,因为获得文本内容其实只需要网页源代码,根本不需要把网页全部显示出来,昨天的做法对于这件事来说是又慢又吃力不讨好。今天学习了一下beautiful soup4干了这件事,代码如下:#!/bin/python3#coding=utf-8#from selenium impor原创 2021-03-11 16:49:40 · 650 阅读 · 4 评论 -
初探Selenium:获取网页中的特定标签下的文本信息
工作目的组里师兄最近遇到一个问题,他有一堆有机物化学式需要去http://www.chemspider.com这个网站上看看有没有已知的结构和物质。他的化学式太多,一个一个查肯定效率低下,于是想用代码来做这件事。我之前也是正好瞅见过其他师兄用过selenium这个软件来做浏览器的模拟,想了一下可能自己可以试试这个东西的用法,然后就造出了下面这个代码。代码没空写太多废话,直接上代码:#!/bin/python3#coding=utf-8from selenium import webdriver原创 2021-03-09 17:24:59 · 2294 阅读 · 0 评论