从宏基因组测序数据中挖掘特定功能基因--生物信息学

最新推荐文章于 2024-07-25 19:29:39 发布

cory010

最新推荐文章于 2024-07-25 19:29:39 发布

阅读量574

点赞数 24

文章标签：笔记经验分享 python scipy numpy pip conda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cory010/article/details/140041732

版权

自从三代测序广泛应用于市场，作为新生代生物学大行业的一员，不懂一点点生物信息学如何能在全内混下去？？

测序公司提供的结果很多，我们最关心的可能包括：

1）微生物群落种类及其比例（可能需要二次计算）信息；

2）样品中测序得到的所有可及的基因序列信息（提供的往往是序列组 XXXX.fa格式）及其功能注释表

这其中，每个样本得到的序列数量，少则几万条，多则上百万条；几十万条是很常见的；注释表一般是XXXX.xls格式；

3）与“2）”对应的氨基酸序列（即多肽、蛋白序列），编号与核酸序列对应（并不一定是连续编号的）；

那么，我们如何区挖掘对我们来说有用的序列，也就是我们的靶标序列？？

这也许是困扰很多人的共性问题。

我在这提供一个基于个人经验的方案仅供参考：

第一种方案，基于原始功能注释是特定功能基因挖掘：

特点：所有人通用，皆可使用；缺点：可能不太准确，不一定具备创新型（不要求也便无所谓）；

1）基于CARD、CAZy、eggNOG、KEGG分析得到一个数据列范围，比如甘露聚糖酶【本人近期在挖掘的一个基因，当前是在功能分析阶段】

那么这些注释是否准确可信？是否唯一（是否具有创新性？）？在序列上发表的特定功能基因有多大差别？

这些问题将决定着我们选择的基因或蛋白序列，是否能够具有相应的功能，是否可以具有创新性而不是简单重复他人的步子；

2）怎么做？怎么分析，怎么筛选怎么排除？

工具准备：

1）最好是有一个高配电脑、服务器级别的更好，能够借用企业、省市级的计算中心进行运算更好；

2）软件平台：Excel（或WPS）基本的吧，Emeditor基本的吧；

为了方便数据的处理，一个纯Linux系统或子系统基本的吧；WSL也行（windows subsystem Linux)；安装方法不做介绍，大家万仙过海，各显神通吧；

3）如果仅仅使用Excel也能做一点工作，前提是你可以打开CARD、CAZy、eggNOG、KEGG结果中准备的大型.xls格式文件（完整打开，不是截取哈）；完了做筛选（功能基因初筛）；不同注释的结果文件之间可以进行数据匹配——可借助excel中的vlookup函数，很好用（数据量巨大时，可能载入和计算会成为问题）；

这时候，emeditor就能大显神威了，可方便地进行千万条序列、数据之间的筛选操作（能不能相互匹配这个，我还没研究出来）；用它筛选出来了特定功能的序列编号之后，就可以进行不同注释结果之间的比较了。

这样，就能够得到一个共同的交集；

4）序列提取

对于XXX.fa文件，动则几百MB大小，Excel提取是有些吃不消的；

借助emeditor是没有问题的，只是单纯的emeditor提取，可能会比较费事；这种情况下，可能就需要结合一些编程工具，或是正则表达式，python，java之类；大家各显神通吧；

个人提取过程，是结合了CLC genomics trial version 和一个键盘记录程序，提取特定编号的序列，也就是20 000条左右吧，需要下班前设置好——过夜——第二天早上上班，得到结果，导出，保存。

万物皆可淘宝/咸鱼，能人异士多的是，还是要好好发掘，能够节省很多时间；

第二种方案，基于蛋白序列的功能基因挖掘（核酸——蛋白，对应着，用哪个都行对吧?)

这个需要一定的技术基础；

大致就是，对于第一方案得到的初筛结果，或者是妥妥的纯原始蛋白序列，挑选处对应的蛋白序列，挑选思路更上面是一样的。

得到序列之后，批量进行Pfam功能批注、信号肽预测、blastp、CLEAN分析等等；

简单解释一下：

1）Pfam功能批注，据说是根据功能域相似性做的工具；有在线工具，请大家自己检索一下其他的，

https://ftp.ebi.ac.uk/pub/databases/Pfam/releases/

这个是pfam库，当前发布最新的是v36，v37貌似没有公开发布；

2) 分泌信号肽预测

这个是DTU health tech提供的信号肽分析服务，应当是当前学界最新最准确的版本了吧？？

https://services.healthtech.dtu.dk/services/SignalP-6.0/

怎么得到预测结果，我就不用教了吧；

https://github.com/aziele/pfam_scan

Pfam domain search，需要Linux环境，WSL就可以，各位可以在windows系统下进行安装，过程国内网站很多了；

3）blastp，即对应NCBI网站上面的 protein-protein blast，原理推测应该是结合蛋白序列相似性

对于几千条、几万条序列，还是可以轻松拿捏的；

4）CLEAN酶功能注释——这个是2023年science发表文章发布的工具

https://github.com/tttianhao/CLEAN

提示一点哈，这个工具比较占用硬盘空间，也需要高配参数支持，比如原作者提到平台运行内训需要>12 G；而个人安装后wsl占用空间足足增加了12G-13G，这个对于现在的大家来说，应该都不是太大问题；

对于2万以内的序列数，个人的经验和建议是，为了挖掘特定的酶功能序列（编号），这些工具都走一遍，这样就可以对序列注释有一个清醒的认识；基本能够确定那些功能有挖掘必要，那些没有；那些序列他人已经发觉过了，那些还没有；那些序列编码的产物大概率可溶，那些基本没有机会；

上述经验对于酶基因的挖掘尤其适用；

比如您想要挖掘小分子，如抗菌肽/细菌素；更小分子如胰岛素基因、抗生素编码相关基因，上面这些可能还仅仅只是基础、却远远不够；

不过，CLC倒是提供了用特定序列作为靶标进行比对的功能，这就方便了大家很多了；

比如知道一个一致靶标序列，长度为25-30的话，通过挑选特定长度的序列，如氨基酸序列长度25-30的，与你自己的靶标序列进行比对，就能够挖掘出来序列相似度很高的 “潜在基因、潜在蛋白”序列；

以上，先这么多吧；毕竟是免费服务，免费分享，大家时间都是有限不是？

以后心情好了，时间宽裕了再来分享以挖掘部分功能基因，表达产物功能验证的情况。

关注

24
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
从宏基因组测序数据中挖掘特定功能基因--生物信息学

从宏基因组测序数据中挖掘特定功能基因--生物信息学；Pfam功能批注、信号肽预测、blastp、CLEAN分析等；
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。