从宏基因组测序数据中挖掘特定功能基因--生物信息学

自从三代测序广泛应用于市场,作为新生代生物学大行业的一员,不懂一点点生物信息学如何能在全内混下去??

测序公司提供的结果很多,我们最关心的可能包括:

1)微生物群落种类及其比例(可能需要二次计算)信息;

2)样品中测序得到的所有可及的基因序列信息(提供的往往是序列组 XXXX.fa格式)及其功能注释表

        这其中,每个样本得到的序列数量,少则几万条,多则上百万条;几十万条是很常见的;注释表一般是XXXX.xls格式;

3)与“2)”对应的氨基酸序列(即多肽、蛋白序列),编号与核酸序列对应(并不一定是连续编号的);

那么,我们如何区挖掘对我们来说有用的序列,也就是我们的 靶标序列??

这也许是困扰很多人的共性问题。

我在这提供一个基于个人经验的方案仅供参考:

第一种方案,基于原始功能注释是特定功能基因挖掘:

        特点:所有人通用,皆可使用;缺点:可能不太准确,不一定具备创新型(不要求也便无所谓);

1)基于CARD、CAZy、eggNOG、KEGG分析得到一个数据列范围,比如甘露聚糖酶【本人近期在挖掘的一个基因,当前是在功能分析阶段】

        那么这些注释是否准确可信?是否唯一(是否具有创新性?)?在序列上发表的特定功能基因有多大差别?

        这些问题将决定着我们选择的基因或蛋白序列,是否能够具有相应的功能,是否可以具有创新性而不是简单重复他人的步子;

2)怎么做?怎么分析,怎么筛选怎么排除?

工具准备

1)最好是有一个高配电脑、服务器级别的更好,能够借用企业、省市级的计算中心进行运算更好;

2)软件平台:Excel(或WPS)基本的吧,Emeditor基本的吧;

        为了方便数据的处理,一个纯Linux系统或子系统基本的吧;WSL也行(windows subsystem Linux);安装方法不做介绍,大家万仙过海,各显神通吧;

3)如果仅仅使用Excel也能做一点工作,前提是你可以打开CARD、CAZy、eggNOG、KEGG结果中准备的大型.xls格式文件(完整打开,不是截取哈);完了做筛选(功能基因初筛);不同注释的结果文件之间可以进行数据匹配——可借助excel中的vlookup函数,很好用(数据量巨大时,可能载入和计算会成为问题);

        这时候,emeditor就能大显神威了,可方便地进行千万条序列、数据之间的筛选操作(能不能相互匹配这个,我还没研究出来);用它筛选出来了特定功能的序列编号之后,就可以进行不同注释结果之间的比较了。

        这样,就能够得到一个共同的交集;

4)序列提取

        对于XXX.fa文件,动则几百MB大小,Excel提取是有些吃不消的;

        借助emeditor是没有问题的,只是单纯的emeditor提取,可能会比较费事;这种情况下,可能就需要结合一些编程工具,或是正则表达式,python,java之类;大家各显神通吧;

 

        个人提取过程,是结合了CLC genomics trial version 和一个键盘记录程序,提取特定编号的序列,也就是20 000条左右吧,需要下班前设置好——过夜——第二天早上上班,得到结果,导出,保存。

        万物皆可淘宝/咸鱼能人异士多的是还是要好好发掘,能够节省很多时间;

第二种方案,基于蛋白序列的功能基因挖掘(核酸——蛋白,对应着,用哪个都行对吧?)

        这个需要一定的技术基础;

大致就是,对于第一方案得到的初筛结果,或者是妥妥的纯原始蛋白序列,挑选处对应的蛋白序列,挑选思路更上面是一样的。

        得到序列之后,批量进行Pfam功能批注、信号肽预测、blastp、CLEAN分析等等;

简单解释一下:

1)Pfam功能批注,据说是根据功能域相似性做的工具;有在线工具,请大家自己检索一下其他的,

https://ftp.ebi.ac.uk/pub/databases/Pfam/releases/

        这个是pfam库,当前发布最新的是v36,v37貌似没有公开发布;

2) 分泌信号肽预测

        这个是DTU health tech提供的信号肽分析服务,应当是当前学界最新最准确的版本了吧??

https://services.healthtech.dtu.dk/services/SignalP-6.0/

        怎么得到预测结果,我就不用教了吧;

https://github.com/aziele/pfam_scan

        Pfam domain search,需要Linux环境,WSL就可以,各位可以在windows系统下进行安装,过程国内网站很多了;

3)blastp,即对应NCBI网站上面的 protein-protein blast,原理推测应该是结合蛋白序列相似性

        对于几千条、几万条序列,还是可以轻松拿捏的;

4)CLEAN酶功能注释——这个是2023年science发表文章发布的工具

https://github.com/tttianhao/CLEAN

        提示一点哈,这个工具比较占用硬盘空间,也需要高配参数支持,比如原作者提到平台运行内训需要>12 G;而个人安装后wsl占用空间足足增加了12G-13G,这个对于现在的大家来说,应该都不是太大问题;

        对于2万以内的序列数,个人的经验和建议是,为了挖掘特定的酶功能序列(编号),这些工具都走一遍,这样就可以对序列注释有一个清醒的认识;基本能够确定那些功能有挖掘必要,那些没有;那些序列他人已经发觉过了,那些还没有;那些序列编码的产物大概率可溶,那些基本没有机会;

        上述经验对于酶基因的挖掘尤其适用;

        比如您想要挖掘小分子,如抗菌肽/细菌素;更小分子如胰岛素基因、抗生素编码相关基因,上面这些可能还仅仅只是基础、却远远不够;

        不过,CLC倒是提供了用特定序列作为靶标进行比对的功能,这就方便了大家很多了;

        比如知道一个一致靶标序列,长度为25-30的话,通过挑选特定长度的序列,如氨基酸序列长度25-30的,与你自己的靶标序列进行比对,就能够挖掘出来序列相似度很高的 “潜在基因、潜在蛋白”序列;

        以上,先这么多吧;毕竟是免费服务,免费分享,大家时间都是有限不是?

        以后心情好了,时间宽裕了再来分享 以挖掘部分功能基因,表达产物功能验证的情况。

  • 24
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值