PlantPAN 4.0 是构建多种植物转录调控网络的综合资源。基因注释和启动子序列有115个物种。PlantPAN 4.0可以帮助我们查看顺式调控元件之间的进化差异和相似性;此外,该系统还可以帮助鉴定同源基因之间的保守非编码序列。数据库转录因子结合位点库包含3428个非冗余矩阵,用于18305个转录因子; PlantPAN 4.0可以有效地重建基因调控网络,并有助于比较不同植物物种和实验中的基因组顺式调控元件。
打开主页:http://PlantPAN.itps.ncku.edu.tw/
我们可以看到对PlantPAN 4.0的介绍,然后是推荐浏览器以及对应文献。
该数据库有6大功能:
01
Gene Search 基因查询。
02
TF/TFBS Search 转录因子/转录因子结合位点查询。
03
Gene Group Search 基因集查询。
04
Promoter Analysis 启动子分析。
05
Cross Species 跨物种分析。
06
ChIP-seq数据查询。
接下来,我们一个一个来试一下吧。
1. Gene Search
点击Gene Search基因查询
可以得到:
A. Identification of cis- and trans- elements of input gene.
输入基因的顺式及反式元件的鉴定。
B. Construction of gene regulatory networks by using coexpression analysis.
利用共表达分析构建基因调控网络。
数据库包含多个物种:拟南芥、水稻、玉米、大豆和棉花等。
我们以拟南芥Arabidopsis thaliana为例,输入基因AT1G15820.1。
点击Search,我们会得到AT1G15820.1的具体注释信息“light harvesting complex photosystem II subunit 6(光合作用复合体II亚单位6 基因名字 LHCB6) ” 。
点击基因可以得到具体的信息,包括基本信息(物种、基因ID、基因名字、染色体位置、基因具体位置、基因描述、序列、KEGG 注释信息)、GO注释、序列注释和启动子分析。
在Promoter Analysis中,我们还可以直接点击Get customized promoter sequence,获得完整的启动子序列。
点击Analysis of this promoter可以得到转录因子结合位点保守的非编码元素串联重复序列 CpG岛。其中不同颜色是预测不同转录因子的结合位点信息,可以勾选进行展示。在下面可以得到具体的转录因子信息。这样我们就可以通过预测结果来判断要不要进行下一步的酵母单杂、双荧光素酶以及 ChIP-seq/qPCR的验证实验了。
2. TF/TFBS Search 转录因子/转录因子结合位点查询
Determine co-occurrence TF and their binding sites within the promoters of input gene group. 确定共现TF及其结合位点,位于输入基因组的启动子中。
Regulatory network construction if co-occurrence TFs based on protein-ptotein interaction. 基于蛋白质-蛋白质相互作用,构建共现TF的调控网络。
点击Search,可以得到转录因子AGL15的调控信息。
然后,我们会得到转录因子的基本信息、调控信息(转录因子结合的motif)、蛋白序列注释。
选择Explore a TFBS by keyword or ID。
点击Search。可以得到基因启动子上的有哪些motif信息。
选择Explore a TFBS by sequence。
结合序列是NAWW[AT]AN,然后点击Search。得到具体转录因子family AT-Hook的motif logo。
3. Gene Group Search基因集分析
以示例的这一组>At5g44420.1;At5g24780.1;At5g24770.1;At3g45140.1;At3g04720.1点击Search
得到结果如下:有AT2G46590、AT1G13260等这些转录因子调控这些基因集。
点击TF Locus得到转录因子的信息。
点击Network construction的view可以看出来,这一组基因分别被AT2G46590调控,而且还给出了不同颜色标识,点击每个基因前面的□,可以得到转录因子可以结合该基因的具体位点信息。
Transcription Factor Binding Site展示的是具体的motif信息。
4. Promoter Analysis启动子分析
这里我们可以直接输入启动子序列来得到启动子序列上其他转录因子结合的位点信息。我们这里以AT1G01020.1为例:
结果显示有AT-HOOK还有NAC等转录因子可以结合在该基因的启动子区上进行调控。还可以通过不同颜色标识不同转录因子的结合位点信息。
5.Cross Species跨物种分析
点击Cross Species 。
里面展示有:CNS analysis、Search similar gene和Blast2SEQ Search。
CNS analysis用于同源基因中的保守非编码序列(CNSs)的识别以及CNSs中的转录因子结合位点(TFBSs)的组合和序列变异的识别。
以AT1G01010.1为例,查询基因ID:AT1G01010.1 [拟南芥] 启动子区域:上游参数:同一性 ≥ 70% e值:0.001 长度 ≥ 30 nt 同源物种最小数量:3
得到结果如下:
还可以输入单个基因查找其他物种的相似基因。
比如输入:AT2G32730.1 (Arabidopsis thaliana)得到的similar geneID 为Os08t0224700-01 (Oryza sativa Japonica Group)
还可以点击红框箭头指向TFBS in conserved regions Conserved Region ID的+,可以得到基因启动子上转录因子的结合位点信息。
还可以比对两个序列之间的相似性。
以示例数据为例,点击search。
得到两条序列的比对信息。
保守区域的转录因子结合位点信息,也可以点击+进行查看。
CpG岛
串联重复结果。
6. ChIP-seq数据查询
点击进去后显示是一个数据库资源植物 ChIP-seq 数据库 (PCBase),它收集并利用来自基因表达综合 (GEO) 和序列读取档案 (SRA) 的各种条件下的植物 ChIP-seq 实验数据来推断七种模型植物和一种绿藻的转录结合位点:拟南芥、水稻、玉米、番茄、大豆、琴叶拟南芥、陆地棉和莱茵衣藻。大家可以自行查看一下。
总之,PlantPAN为我们提供了一个强大的植物启动子和转录因子动态调控的信息,我们可以查找不同植物的基因ID以及对应的注释信息以及启动子和调控信息,还可以输入基因集,去探索基因集的调控关系,还可以进行跨物种分析,得到不同物种的基因启动子区域相似性信息以及转录因子结合位点信息、CpG岛和串联重复信息。尽管数据库目前收录的物种还有限,但是我们仍可以根据物种之前的保守型去预测研究的转录因子以及对应靶基因的结合位点信息,然后再根据预测的结果进行后续验证。