linux下pfam使用方法,pfam数据库介绍及使用

一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。

基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

75cd0b2829b8fb89f7bf74df2bc1a78a.png

pfam数据库介绍:

Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。网址如下

http://pfam.xfam.org/

在该数据库中,提供了以下3个不同层级蛋白质家族信息。

1.family

每个family以PF编号唯一标识,所有的family可以分为以下6种类型:

Family

A collection of related protein regions

Domain

A structural unit

Repeat

A short unit which is unstable in isolation but forms a stable structure when multiple copies are present

Motifs

A short unit found outside globular domains

Coiled-Coil

Regions that predominantly contain coiled-coil motifs, regions that typically contain alpha-helices that are coiled together in bundles of 2-7.

Disordered

Regions that are conserved, yet are either shown or predicted to contain bias sequence composition and/or are intrinsically disordered (non-globular).

2. clan

对多个family进行相似性分析,将具有相似的三维结构或者相同motif的family归为一个clan, 可以看做是superfamily的概念,每个clan以CL编号标识,示意如下

3. proteones

物种的蛋白质组信息,就是该物种内所有的蛋白质family 信息.

以上信息可以,可以通过以下方法,浏览pfam数据库得到:

fb24c81ce86ec2bc0e301bcc1cc658f6.png

pfam数据库使用:

下面主要介绍pfam数据库常用的三种功能:

ad7790b0b6ff6619af9f64b32abc35a0.png

1. SEQUENCE SEARCH

如果你有一条蛋白质序列,想知道这条蛋白质序列上有哪些结构域,可以用这个入口快速找到结构域信息:点击->SEQUENCE SEARCH->输入序列->GO

29c08f377b492d7210c1407c6642ad0f.png然后就可以得到这条序列上的详细信息:

507c41c21c28b9adcba6779bdda34aa8.png

2. KEYWORD SEARCH

如果你知道你要研究的基因家族相关功能关键字,或者名称等等信息,想知道在pfam数据库当中,是否存在这个家族的pfam号。这时候可以使用keyword search这个功能,快速找到pfam数据库中是否有收录这个家族的的pfam号,然后就可以下载hmm模型文件,查看motif等信息,用于后续研究。

8ce762c037c4661ea6fef936ff7e2959.png

3. JUMP TO

当你通过读文献阅读,知道某个家族的pfam号的时候,就可以通过这个功能,快速的找到相应家族的信息:

6bce0c9f37d90e63cf7293f095c0c608.png

延伸阅读:

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

9.组学大讲堂全部生物生信数据挖掘课程可点击:组学大讲堂视频课程

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用R中的一些生物信息学包来可视化细菌蛋白质序列。以下是一个简单的示例: 1. 首先,你需要从NCBI网站下载你感兴趣的细菌蛋白质序列的FASTA文件。 2. 通过Biostrings包将FASTA文件读入R中。 ```R library(Biostrings) protein_seq <- readDNAStringSet("protein.fasta") ``` 3. 使用ggplot2包创建一个基本的序列图,并使用Biostrings包中的AAString函数将氨基酸序列转换为字符向量。 ```R library(ggplot2) library(dplyr) protein_df <- data.frame(seq = AAString(protein_seq)) protein_df <- protein_df %>% mutate(pos = row_number()) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text(size = 6, family = "mono") + theme_void() ``` 4. 如果你想添加一些注释,如保守性和功能域信息,可以使用biomaRt和PFAM包来获取相关数据,并将其添加到序列图中。 ```R library(biomaRt) library(PFAM) mart <- useMart("ensembl", dataset = "bacteria") protein_info <- getBM( attributes = c("start_position", "end_position", "strand", "gene_biotype"), filters = "ensembl_peptide_id", values = names(protein_seq), mart = mart ) pfam_df <- search_pfam(protein_seq) protein_df <- protein_df %>% left_join(protein_info, by = c("pos" = "start_position")) %>% left_join(pfam_df, by = c("pos" = "start")) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text( aes(color = ifelse(!is.na(pfam_id), pfam_id, "NA")), size = 6, family = "mono" ) + scale_color_brewer(palette = "Set1") + theme_void() ``` 这个示例只是一个简单的开始,你可以使用其他包和自定义代码来创建更复杂的细菌蛋白质序列可视化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值