自从三代测序广泛应用于市场,作为新生代生物学大行业的一员,不懂一点点生物信息学如何能在全内混下去??
测序公司提供的结果很多,我们最关心的可能包括:
1)微生物群落种类及其比例(可能需要二次计算)信息;
2)样品中测序得到的所有可及的基因序列信息(提供的往往是序列组 XXXX.fa格式)及其功能注释表
这其中,每个样本得到的序列数量,少则几万条,多则上百万条;几十万条是很常见的;注释表一般是XXXX.xls格式;
3)与“2)”对应的氨基酸序列(即多肽、蛋白序列),编号与核酸序列对应(并不一定是连续编号的);
那么,我们如何区挖掘对我们来说有用的序列,也就是我们的 靶标序列??
这也许是困扰很多人的共性问题。
我在这提供一个基于个人经验的方案仅供参考:
第一种方案,基于原始功能注释是特定功能基因挖掘:
特点:所有人通用,皆可使用;缺点:可能不太准确,不一定具备创新型(不要求也便无所谓);
1)基于CARD、CAZy、eggNOG、KEGG分析得到一个数据列范围,比如甘露聚糖酶【本人近期在挖掘的一个基因,当前是在功能分析阶段】
那么这些注释是否准确可信?是否唯一(是否具有创新性?)?在序列上发表的特定功能基因有多大差别?
这些问题将决定着我们选择的基因或蛋白序列,是否能够具有相应的功能,是否可以具有创新性而不是简单重复他人的步子;
2)怎么做?怎么分析,怎么筛选怎么排除?
工具准备:
1)最好是有一个高配电脑、服务器级别的更好,能够借用企业、省市级的计算中心进行运算更好;
2)软件平台:Excel(或WPS)基本的吧,Emeditor基本的吧;
为了方便数据的处理,一个纯Linux系统或子系统基本的吧;WSL也行(windows subsystem Linux);安装方法不做介绍,大家万仙过海,各显神通吧;
3)如果仅仅使用Excel也能做一点工作,前提是你可以打开CARD、CAZy、eggNOG、KEGG结果中准备的大型.xls格式文件(完整打开,不是截取哈);完了做筛选(功能基因初筛);不同注释的结果文件之间可以进行数据匹配——可借助excel中的vlookup函数,很好用(数据量巨大时,可能载入和计算会成为问题);
这时候,emeditor就能大显神威了,可方便地进行千万条序列、数据之间的筛选操作(能不能相互匹配这个,我还没研究出来);用它筛选出来了特定功能的序列编号之后,就可以进行不同注释结果之间的比较了。
这样,就能够得到一个共同的交集;
4)序列提取
对于XXX.fa文件,动则几百MB大小,Excel提取是有些吃不消的;
借助emeditor是没有问题的,只是单纯的emeditor提取,可能会比较费事;这种情况下,可能就需要结合一些编程工具,或是正则表达式,python,java之类;大家各显神通吧;
个人提取过程,是结合了CLC genomics trial version 和一个键盘记录程序,提取特定编号的序列,也就是20 000条左右吧,需要下班前设置好——过夜——第二天早上上班,得到结果,导出,保存。
万物皆可淘宝/咸鱼,能人异士多的是,还是要好好发掘,能够节省很多时间;
第二种方案,基于蛋白序列的功能基因挖掘(核酸——蛋白,对应着,用哪个都行对吧?)
这个需要一定的技术基础;
大致就是,对于第一方案得到的初筛结果,或者是妥妥的纯原始蛋白序列,挑选处对应的蛋白序列,挑选思路更上面是一样的。
得到序列之后,批量进行Pfam功能批注、信号肽预测、blastp、CLEAN分析等等;
简单解释一下:
1)Pfam功能批注,据说是根据功能域相似性做的工具;有在线工具,请大家自己检索一下其他的,
https://ftp.ebi.ac.uk/pub/databases/Pfam/releases/
这个是pfam库,当前发布最新的是v36,v37貌似没有公开发布;
2) 分泌信号肽预测
这个是DTU health tech提供的信号肽分析服务,应当是当前学界最新最准确的版本了吧??
https://services.healthtech.dtu.dk/services/SignalP-6.0/
怎么得到预测结果,我就不用教了吧;
https://github.com/aziele/pfam_scan
Pfam domain search,需要Linux环境,WSL就可以,各位可以在windows系统下进行安装,过程国内网站很多了;
3)blastp,即对应NCBI网站上面的 protein-protein blast,原理推测应该是结合蛋白序列相似性
对于几千条、几万条序列,还是可以轻松拿捏的;
4)CLEAN酶功能注释——这个是2023年science发表文章发布的工具
https://github.com/tttianhao/CLEAN
提示一点哈,这个工具比较占用硬盘空间,也需要高配参数支持,比如原作者提到平台运行内训需要>12 G;而个人安装后wsl占用空间足足增加了12G-13G,这个对于现在的大家来说,应该都不是太大问题;
对于2万以内的序列数,个人的经验和建议是,为了挖掘特定的酶功能序列(编号),这些工具都走一遍,这样就可以对序列注释有一个清醒的认识;基本能够确定那些功能有挖掘必要,那些没有;那些序列他人已经发觉过了,那些还没有;那些序列编码的产物大概率可溶,那些基本没有机会;
上述经验对于酶基因的挖掘尤其适用;
比如您想要挖掘小分子,如抗菌肽/细菌素;更小分子如胰岛素基因、抗生素编码相关基因,上面这些可能还仅仅只是基础、却远远不够;
不过,CLC倒是提供了用特定序列作为靶标进行比对的功能,这就方便了大家很多了;
比如知道一个一致靶标序列,长度为25-30的话,通过挑选特定长度的序列,如氨基酸序列长度25-30的,与你自己的靶标序列进行比对,就能够挖掘出来序列相似度很高的 “潜在基因、潜在蛋白”序列;
以上,先这么多吧;毕竟是免费服务,免费分享,大家时间都是有限不是?
以后心情好了,时间宽裕了再来分享 以挖掘部分功能基因,表达产物功能验证的情况。