本文以FER(AT3G51550)植物蛋白为例
gene suquence:
GTTAACGCGTAGAGGGAAGCAACAATGCTTGTCCGTTTTGTCGTCGTCTTGACTATACTTACCTCTCCACTCATTAATTGATTTTCTCTCTCTCTCCCCCAAAATATCTCTGTCTTCTCCAAAAACTCTCTCCGATTTCATCGCTTAGGGTTTCTTCCCCGATTCTTCAGGTATGTAATCATCATCATCATCTTCCTCACTTCACTCTCCCTTACTACTGTATTCAAACTTCAATTTCATCTGTTTCTTAAGCTCAATTTTCGTAACCAAACGAACATGTACCTCTAGCACTTTCCATTTTTAGATCTGTGAAGTTTATAGTTTCGATTTTCTTTCGTTTGATAGATCTGAGAAGAAGATCTTCCCGGAGAAGTGCTCTTGATCGATGAAGATCACAGAGGGACGATTCCGTCTCTCTCTTCTTCTTCTTCTTCTTCTCATATCTGCAGCAACTTTAATCTCAGCTGCTGATTACTCTCCAACAGAGAAAATCCTATTGAATTGCGGTGGTGGTGCTTCTAATCTAACCGACACAGATAACCGTATATGGATCTCCGATGTCAAATCAAAATTCTTATCATCTTCCTCTGAAGACTCTAAAACATCACCAGCGTTAACACAAGATCCTTCCGTTCCCGAAGTTCCTTACATGACGGCGAGAGTTTTCCGATCTCCTTTCACTTACACTTTCCCTGTAGCATCAGGTCGTAAATTCGTGCGTCTCTACTTCTACCCAAACTCGTACGACGGTCTCAACGCTACCAACTCGTTATTCTCCGTCTCCTTTGGTCCTTACACTCTTCTCAAGAATTTCAGTGCTTCTCAGACGGCGGAGGCGTTGACTTACGCTTTCATCATCAAGGAGTTTGTTGTCAACGTTGAAGGTGGAACGTTGAACATGACGTTTACACCGGAATCAGCTCCGTCTAATGCGTATGCGTTTGTTAATGGGATTGAGGTTACTTCAATGCCTGATATGTATAGTAGTACTGATGGGACTTTGACTATGGTTGGATCATCTGGCTCTGTTACTATTGATAACAGTACTGCTCTTGAGAATGTGTATAGGCTCAATGTTGGAGGGAATGATATCTCGCCTTCCGCGGATACGGGTTTGTATAGGTCGTGGTATGATGATCAGCCTTATATATTTGGTGCAGGACTTGGTATTCCAGAGACTGCTGATCCCAACATGACGATTAAGTATCCTACGGGGACTCCTACTTATGTTGCTCCTGTGGATGTTTATTCAACCGCGAGGTCTATGGGTCCAACAGCTCAGATCAATCTCAACTACAATCTTACTTGGATTTTCAGCATTGACTCTGGTTTCACTTACCTTGTTAGACTTCATTTCTGTGAGGTTTCTTCGAATATCACTAAGATCAACCAACGGGTGTTTACAATCTACCTCAACAATCAAACTGCTGAGCCTGAAGCTGATGTGATTGCTTGGACTAGTTCAAACGGGGTTCCGTTTCACAAGGATTACGTGGTGAATCCTCCAGAGGGAAATGGACAGCAAGATTTGTGGCTTGCTCTTCATCCTAACCCAGTTAACAAGCCGGAGTATTATGATTCTCTTCTTAATGGAGTGGAGATATTCAAGATGAATACTTCTGATGGTAATCTGGCTGGTACCAATCCTATACCTGGTCCACAGGTGACTGCTGATCCATCTAAAGTCCTACGCCCGACTACTAGGAAATCGAAAAGCAATACGGCTATTATTGCAGGCGCAGCCAGTGGTGCAGTTGTTCTGGCCCTTATCATTGGGTTTTGTGTGTTTGGTGCTTACCGCAGACGTAAGCGTGGTGATTACCAGCCTGCTAGTGATGCAACATCAGGGTGGCTTCCACTATCTCTGTATGGAAACTCACATTCTGCTGGCTCGGCGAAGACAAACACAACAGGAAGTTATGCCTCGTCCCTTCCGTCAAATCTTTGCCGTCACTTCTCGTTTGCTGAGATCAAAGCTGCCACTAAAAACTTTGATGAGTCCCGGGTGCTTGGTGTTGGTGGTTTCGGCAAGGTTTACAGAGGAGAGATTGATGGCGGAACTACAAAGGTAGCCATCAAGAGAGGCAACCCAATGTCCGAGCAAGGTGTACATGAGTTCCAGACTGAGATTGAAATGCTTTCAAAGCTTAGACATCGTCATCTTGTGTCCTTGATTGGATACTGTGAAGAGAACTGCGAAATGATCTTAGTCTATGATTACATGGCTCATGGTACAATGAGGGAGCATCTCTACAAAACCCAGAATCCTTCTCTTCCATGGAAGCAACGTCTTGAGATATGCATTGGAGCAGCCCGAGGTTTACACTATCTACACACTGGTGCAAAACACACAATCATCCATAGAGATGTGAAGACAACAAACATTCTATTGGATGAGAAATGGGTGGCCAAGGTCTCTGATTTTGGTCTATCGAAGACTGGTCCTACACTAGACCACACACACGTAAGCACAGTTGTGAAAGGAAGTTTCGGTTATCTTGACCCAGAGTATTTCAGACGGCAGCAACTGACTGAGAAATCCGATGTCTACTCCTTTGGCGTTGTTCTATTCGAAGCTCTATGCGCTCGTCCAGCCTTGAACCCAACACTTGCAAAGGAACAAGTGAGCTTAGCTGAGTGGGCACCATACTGCTACAAGAAAGGCATGCTAGATCAAATCGTTGATCCCTACCTCAAGGGCAAGATCACACCAGAATGCTTCAAAAAGTTTGCTGAAACCGCGATGAAGTGTGTTCTAGACCAGGGCATTGAGAGACCATCAATGGGAGATGTTCTGTGGAACTTAGAATTTGCGTTGCAGCTCCAGGAAAGCGCAGAAGAGAACGGAAAAGGAGTATGCGGTGACATGGACATGGATGAGATTAAGTACGATGATGGAAACTGTAAAGGAAAGAACGACAAGAGTTCTGATGTGTATGAAGGGAATGTGACGGACTCGAGGAGCAGTGGAATAGATATGAGCATCGGTGGTAGGAGTTTGGCCAGCGAAGATTCAGATGGACTCACTCCAAGTGCTGTGTTTTCTCAGATCATGAATCCAAAGGGACGTTAGAGAAGTCTTATAACACGGTACAACACTACTACCTTTCTAAACCGGCTCCATCCAAAGGAGACCGGTTCGTTTCTCTTTTTTATATTTTTTTTCCTCTTAACTATTTATTATTATTCTCTTTGCTGTTATTTATTTAGAATTTTGGATTTGTGTATTTGATGCCACGATGGAGAGTGTAAAAAATAATGTATTTTTTTTTCTTCTTTCTACAAAAACATTAAACATGAATCGCGTCAATGTACTATTTGGTTTGTTATCTATAACGTTTTTGGTAATTGTTGCATCTTTACTCT
启动子选为gene上游2k序列(19120950 - 19122949):
CCTCGACCAAGGCTGCCATCTTCAAGTTTACATGGCTTGGTCCCAAGATTTTATGCCCTAGTATCTTTATCCCTCTTCAATGCATCCTTGATGCATATACCGGAAGAGATTTGTTCCTTGCCTTCAGTAGTGCTGTTGGATCTTGGTCGGAATGGTTTCAGCAAAATCCCTGAAAGCATAAAGCAGTTATCTAAACTACATAGCCTTAGATTAAGACATTGTAGAAACCTCATATTGCTTCCGGCGCTTCCCCAAAGCCTGAAACTGTTGAACGTGCATGGTTGTGTGTCTCTAGAGTCAGTTTCTTGGGGATTTGAGCAGTTTCCTAGTCATTACACCTTCAGCGATTGCTTCAATAAGTCTCCAAAAGTGGCTAGAAAACGAGTTGTAAAAGGCCTGGCTAAAGTAGCAAGCATTGGCAACGAACATCAGCAGGTAACTCTCTCGTTCTCATGTCCCTTCTTTCTCACTCATACATACTTTAGCGTATATGTAATTTTCCTTTTTCTTGTTGGGACCAGGAACTCATCAAAGCACTTGCATTCAGCATTTGCGGGCCTGCAGGAGCAGATCAGGCAACCTCTTATAATTTGCGGGCAGGTTCATTTGCAACGATAGAGATAACTCCTTCCCTGCGAAAGACACTCTTGGGGTTTGCTATCTTCGTTGTAGTATCGTTTTCGGATGATAGTCACAACAACGCTGGGCTTGGCGTTAGGTGCGTAAGCAGATGGAAGACAAAGAAAAGGGTGGTCACTGGTAAAGCAGAGAAAGTGTTTAGGTGTTGGGCTCCGAGAGAAGCTCCTGAGGTTCAAAGGGATCACATGTTTGTGTTTTATGAGGATGCCGAAATGCATCGAGGTGGTGGTGAGGGAAACAAACCAAATATAATGGCTGATCACGTTGAATTTGAATTCCAAGCAGTAAATGGAAGAAACAAGGTCTTAGGCGGTAATTGCATGGTGACAGAATGTGATGTTTGTGTTATAACAGCTGCAACTGGTGCGGCGAGTCTGAGTGTAACAAATGCAAGTAAGGATATGAGTTTAAGTAAGAATCATTCTCCGAAGCTTTCAAGTGTGATTGGTAAGCTTCGATTTAAGCGAGTTGGTAGGTTTGGTGGTTGTGTTTGCCTAGAGTGAAGAAAAGTTAAGAGTGGGAACTGGGAAGAGTGTATGTATGTGACTCGTCTCATGCGTGCCCAAATGCGAAGTAGCAGAAACATGTATGTTTGAAATGTAATTTTTATTATTTAAAATTGGCATAAACAAAAAAAAATGTGTTGTCTGAAAGAGAATTAATGATATGTTAATGTAAATATTTAGTGCATGTTTGATGTAATGGTTTAAAGTTTTATTTTATTTTGAAAGACTGAGAAAACAAGGATCACAAACTCTGTTTTGAATCAAGAAGGTGTAGACCAAAAAAATTGCACACGTTCGGCCTTAACCACGGTTTATTTGTATTCAAGGTTACTTGGATTTGACATCGGAGATCAAGGTTACTCCTTACCTTAGACATGATCGATCAAAAGGAGGCTACGCCGATTGTCATAAACATATATCATGTGCACGTTAGATAAGGCCCACTTATAACTGGGCCATAGGAGATAAACTGAAATCAGAGTAAAAAGCCCATGATTACGTAAACTATCCTAACTAACTAACGAGTTATTATCAAAGCAGGCCCCATTCTTTCCCTTTATAGTATAATATAGAGTACCAGCTCAGCCACGAGCAGTCACCACCGCACACAAAAATACGCGTTTCATAAAATTCTCTTGTCTTTTCTTTAGTTTAATGGATTTACTCTCTCACATTTTATGAACTGTCATCCAAACCATACCAATCAACATTATCCTTCGAATGGTCAAGACATATATAATTCCAGCTGTTGATACTCAAAGGTCATTATCGTCACTTCACCCACCTTCAAGCCGGCTTCAATTAATTAAACCCGATAACTATATCTTAATTTAATCTTATTGAAATTAAAATAAC
1. 使用的预测网站:PROMO
(https://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3)
这里选取拟南芥物种,所以这里选择:embryophyta
预测结果图如下:
在容错率 0% 的情况下找到一下5个可能结合的转录因子:
0 MYB2 [T02536]
1 HSF1 [T04394]
2 TRM1 [T05311]
3 PBF [T02693]
4 Alfin1 [T04733]
2. 使用的预测网站:PlantRegMap
https://plantregmap.gao-lab.org/binding_site_prediction_result.php
选取物种类型,输入启动子序列,在Threshold p-value ≤ 1e-7下,结果如图:MYB
在Threshold p-value ≤ 1e-6 下,结果如图:
- ERF
- GATA
- MYB
- Trihelix