顺式作用元件包括_植物启动子-顺式作用元件-批量提取-预测-可视化分析

本文介绍了如何使用TBtools提取和分析植物基因启动子区域的顺式作用元件,包括启动子区域的提取、序列转换、PlantCare预测、结果整理和TBtools的可视化分析,提供了一种快速完成顺式作用元件研究的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

21d8f1caa26639c7aa81496a13bd5f55.png

写在前面

以前总看到问题是,基因结构可视化的问题;现在则变成了启动子元件的预测或者说可视化。这本身比较简单,也比较玄乎,所以我一直不是太乐意与别人讨论。但学院今天断网,手上的工作无法正常开展。正好有旧友也问起,那么我就写写。其实,有了TBtools,这些分析,所有人都可以极其快速的完成

顺势作用元件分析的顾虑

之所以说这个分析玄乎,在于他真的玄乎。顺势作用元件,基于其定义,并不一定就是启动子区域,也可以在内含子里面,还可以在邻近的基因里面。所以他跟启动子似乎并没有直接关系。只是,启动子从定义上来谈,就是RNA聚合酶(如pol II)被招募并结合的区域附近。这一区域应是有较多的转录因子(反式作用因子)和转录调节子,所以自然是存在较多的顺势作用元件。
说到这里,那么启动子区域的边界如何确定,又是玄乎的事情。几乎所有物种里面的UTR注释都是不全的,即使是拟南芥或者水稻,更或者人类。原因有很多。再从另一个方面来说。即使是同一个基因(locus),不同的转录本会有不同的转录起始位点,那么这个时候,哪一个TSS之上是所谓真实的启动子
总而言之,存在一个约定俗成(也就是大家都是看破不说破)的做法,取翻译起始密码子(ATG)上游1kb,或者2kb,或者更长一些。那么本文的做法就是,取2kb(注意,这个做法明显就是会包括一些UTR,然而似乎没有更好的做法)

实践一番

1.提取所有基因的启动子区域

首先是准备好输入文件

  • 基因组序列,即fasta序列
  • 基因结构注释信息,如gff文件

ae13998f9c674fb2496e27d056c43ebf.png

打开TBtools,使用gff3 序列提取工具,并设置到,只提取CDS上游2000bp的参数,如下

c12e63a1f51924717f8ef6274e06de4e.png

于是得到了拟南芥所有基因的CDS上游2kb(已经自动处理正反链)

2.提取目标基因集合的启动子序列

这一步比较简单,直接使用TBtools

cf9cd94678eea71f29d8291518d29135.png

查看下提取出来的文件信息是否正确

bdc62fe829f3edc9f59c2aec407cab3c.png

数目没错,长度没错,不过都是小写的。

3.将序列全部转换成大写

789d60b1403a00415bd0da5ddf25f913.png

4.提交到PlantCare网站进行顺势作用元件预测

http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

20c59a8dfd87d24ae0f5721a6df2ed7a.png

设置邮箱,选择要上传的文件(如果超过100kb,就用TBtools的Fasta Split 分割文件,逐个提交),点击上传,静等邮件

a9d697b1595875cd10f2eae50921c0ea.png

4. 整理和简化PlantCare分析结果

大概过了15min之后,邮箱提示收到邮件,是一个压缩包,解压即是
每一个序列对应了一个网页可交互的结果,而我们直接查看汇总文件即可

ad348a36fab9db5315007346009bc039.png

使用Excel打开,基于表格中的信息,如最后一列,筛选并保留有一定查看目的元件,如响应类元件

25e01c8ea75bd215e9e85797461c0d5f.png

筛选后

5a1b7e5da02b9070b2dfdb2501e22c99.png

剩下900多个元件,还是很多,接下来充分利用Excel的筛选工具(或者自己手动逐个修改)将同一类的响应类元件给与同样的标签,大概花了10来分钟....

48068b2664765380688a02863dafbfb2.png

接下来整理成适合于TBtools可视化的文本信息

1c865d6aac12e9a6cb3dc4f8fc2f726c.png

5.使用TBtools对顺势作用元件进行可视化

首先需要准备一个序列长度文件,所有都是2000bp的启动子序列

155df58ef46eac72d563dbfa0b3faea6.png

随后是使用上一步得到的顺势作用元件位置信息,打开TBtools进行可视化

3b8863bc728ded835cbd3a2f1bb91255.png

设置输入信息

90bda879248f928f9eede265edbcfa1d.png

点击Start即可得到图片...不过默认输出的图片有点长,基于JIGplot的特点,自己拖拽几下即可得到下图

8227ce2f39c8bedb50f787609a142950.png

可以看到,似乎有一个序列是AT1G35240.1带有明显增多的生长素响应元件?!具体生物学问题还是看做这个家族的人了。

6. 进化往往能告诉我们更多信息

于是我们把基于蛋白序列做的进化树也加上去
然后,如果你对TBtools的JIGplot引擎熟悉的话,直接用panelEditor调整两个Panel即可,如果不熟悉,那就。。。手动拖吧
可以得到下图

d42689e2c41fdc81d6e451244fc85d90.png

如果关注某个元件,如生长素响应,或者其他?

3a6d96acb8f608fec338d011b8446c64.png

从预测结果来看?有部分ARF不受Auxin的直接诱导?少数的ARF可能会收到强烈有道?

写在最后

没想到,整理完这个教程花了一个来小时...
希望明天网络恢复正常。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值