![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
一些生信工具
生物信息学工具的基本使用
Chenhu7
这个作者很懒,什么都没留下…
展开
-
python下载目标链接
urllib.request.urlretrieve()原创 2022-10-01 13:45:28 · 750 阅读 · 1 评论 -
VIGA--病毒基因组注释
VIGA安装及数据库配置基于docker容器命令sudo path/run-viga --input test.fna --diamonddb /data/databases/RefSeq_Viral_DIAMOND/refseq_viral_proteins.dmnd --blastdb /data/databases/RefSeq_Viral_BLAST/ --hmmerdb /data/databases/pvogs/pvogs.hmm --rfamdb /data/databases/rfam/原创 2022-05-06 19:09:12 · 1151 阅读 · 0 评论 -
T细胞/B细胞表位预测
Bcellepidope -i sample.fna -o sampleTcellmhcflurry-predict-scan sample.fasta --alleles HLA-A*02:01 --out sample.csv相关文献https://openvax.github.io/mhcflurry/原创 2022-03-12 12:49:13 · 1915 阅读 · 0 评论 -
blast命令
蛋白质序列比对蛋白质数据库(blastp)blastp -query seq.fast -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8核酸序列比对核算数据库(blastn)blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_thread原创 2020-10-21 12:13:33 · 4531 阅读 · 5 评论 -
基因组序列genbank格式和fasta格式批量下载
实验内容:1.在PATRIC数据库检索栏选择“Genomes”,以Bifidobacterium(双歧杆菌)为关键字进行检索。2.对上述检索结果进行进一步的过滤筛选,选择“Genomes Status”下的“Complete”,以及“Host Name”下的“Human, Homo sapiens”,完成检索结果的过滤筛选。3.下载2中过滤后的结果,并保存为CSV文件格式。4.利用Python提取CSV文件中各个基因组的“GenBank Accessions”,存储到想要的python列表中。5.原创 2020-11-07 14:29:37 · 7729 阅读 · 1 评论 -
antiSMASH安装与使用
antiSMASH本地安装简要:antiSMASH的本地安装需要安装很多的依赖包,本文章使用conda辅助安装参考:官方:https://docs.antismash.secondarymetabolites.org/install/文章:http://blog.sciencenet.cn/blog-3416913-1240614.html依赖包下载conda install -y diamond=0.8.36conda install -y fasttree=2.1.9conda ins原创 2020-11-21 13:03:13 · 5681 阅读 · 13 评论 -
biopython:基因genbank格式转核酸或氨基酸fasta格式
genbank to fasta 核酸from Bio import SeqIOgbk_filename = "c00079_GUT_GEN...region001.gbk"faa_filename = "c00079_GUT_GEN...region001.fna"input_handle = open(gbk_filename, "r")output_handle = open(faa_filename, "w")for seq_record in SeqIO.parse(input_h原创 2022-02-07 17:04:40 · 2161 阅读 · 0 评论 -
Clusterfinder结果分析
cluster结果储存图片*.cluster.out文件 requires at least three biosynthetic domains 至少需要三个生物合成域Ⅰ:自己取的生物体名称Ⅱ:chain 不同的氨基酸序列Ⅲ:gene命Ⅳ:gene_start 基因开始位置Ⅴ:gene_end 基因结束位置Ⅵ:pfam_start pfam结构域开始Ⅶ:pfam_end pfam结构域结束Ⅷ:含有簇域的概率...原创 2020-11-20 23:37:04 · 823 阅读 · 1 评论 -
Aspera高速下载NCBI FTP数据
本地blast需要下载的nr/nt数据库太大,并且wget命令下载简直龟速。服务器使用aspera下载ftp数据ftp路径:https://www.ncbi.nlm.nih.gov/public/~/.aspera/connect/bin/ascp -QT \ -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \-k1 -l 300m \anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./原创 2021-01-18 17:26:38 · 2878 阅读 · 0 评论 -
selenium批量提取antiSMASH结果中的核心基因AA序列
import osfrom selenium import webdriverimport timeimport rebrowser = webdriver.Chrome() # 全局变量 浏览器def click_event(): """ 所有点击事件 返回 一个菌株的polygons_name 、AA_seqs 待写入文本中 """ polygons_name = [] # 用于一个菌株存储所有核心基因名称 AA_seqs = [] #原创 2021-01-29 13:23:05 · 1105 阅读 · 0 评论 -
DeepBGC:生物合成基因簇的检测和分类
DeepBGC使用深度学习来检测细菌和真菌基因组中的BGC。DeepBGC使用双向长期短期记忆递归神经网络和Pfam蛋白域的word2vec样载体嵌入。使用随机森林分类器预测产品类别和检测到的BGC的活性。简单来说就是他可以挖掘到antismash没有分析出来的BGCdeepbgc安装:https://github.com/Merck/deepbgc运行deepbgc#Show command help docsdeepbgc pipeline --help#Detect and class原创 2021-04-16 12:05:37 · 3182 阅读 · 0 评论 -
fastq和fasta格式转化
fastq >> fastaseqtk# 安装conda install seqtk# 运行seqtk seq -A input_file.fastq > output_file.fastafasta >> fastqfasta_to_fastq.pl# 下载 wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/fasta-to-fastq/原创 2021-04-18 22:23:47 · 3985 阅读 · 6 评论 -
Bowtie2 基因组mapping
Bowtie 2是一种超快速且高效存储的工具,可用于将测序序列与参考序列进行比对。https://github.com/BenLangmead/bowtie2建立参考基因组索引# Building a small indexbowtie2-build example/reference/lambda_virus.fa example/index/lambda_virus# Building a large indexbowtie2-build --large-index example/ref原创 2021-04-18 23:10:30 · 1454 阅读 · 1 评论 -
批量提取antiSMASH核心基因编码AA序列(JSON文件)
import jsonimport osdef extract(json_path,out_path): """ :param json_file: antismash结果json文件父目录 :param out_path: core核心蛋白质序列存放目录 """ json_files=os.listdir(json_path) #创建结果存放目录 isExists = os.path.exists(out_path) if not原创 2021-08-10 23:05:16 · 873 阅读 · 1 评论 -
samtools提取指定位置核酸或氨基酸序列
提取序列:samtools faidx input.fa chr1 > chr1.fasamtools faidx input.fa chr1:100-200 > chr1.fa原创 2021-08-22 19:30:35 · 1882 阅读 · 0 评论