生物信息学软件和数据库使用方法

荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验

 

本文讨论的主要问题:

1.确保你不会泄漏保密的数据

2.保证你自己可以重复你的工作

3.选择合适的数据

4.确保保存了重要的文件

 

我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)

 

有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。

 

如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。

 

接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。

 

一、记住,你的数据提交到网络上就永远是不安全的。

当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。

我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。

 

二、把服务器,数据库和你运行的程序的版本号都记录下来。

如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。

 

为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉

 

如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。

服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。

 

三、把数据的Identification Numbers或者ID,AC号都记录下来。

 

一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。

 

四、记录下来程序运行的参数

 

简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。

 

简单的记录方式就是截屏,如果不会请看下面一条。

 

五、要是在网络上运行出来的结果,马上就要保存。

 

这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。

不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。

1.按键盘上的PrntScrn键,或者“印屏幕”键。

2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具

3.按Ctrl+V,如果出现对话框就按“是”。

4.保存或者打印。

如果保存成jpg图像,那你的图像质量就被压缩了。

 

最后强调一下,结果最好保存成文本文件。

 

六、使用E-value

你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:

E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。

 

E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。

E-value越小越好。专业一点说就是,E值越小,结果越显著。

 

七、使用生物信息学工具之前,好好读一下说明文档。

最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。

 

八、重要的结论性数据,要用不同的程序验证。

打个比方说,ClustalW的结果,用Phylip验证一下。

 

九、没发表的方法不要用。

不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。

 

十、数据库不像红酒

额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。

 

最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bioinformatics– the process of searching biological databases, comparing sequences, examining protein structures, and researching biological questions with a computer– is one of the marvels of modern technology that can save you months of lab work. And the most amazing part is that, if you know how, you can use highly sophisticated programs over the Internet without paying a dime and sometimes, without installing anything new on your own computer. All you need to know is how to use these technological miracles.       That's where Bioinformatics For Dummies comes in. If you want to know what bioinformatics is all about and how to use it without wading through pages of computer gibberish or taking a course full of theory, this book has the answers in plain English. You'll find out how to      Use Internet resources   Understand bioinformatics jargon   Research biological databases   Locate the sequences you need   Perform specific tasks, step by step       Written by two experts who helped develop the science, Bioinformatics For Dummies is all about getting things done. If you're just getting your feet wet, start at the beginning with a quick review of those necessary parts of microbiology and an overview of the tools available. If you already know what you want to do, you can go directly to a chapter that shows you how. Get the lowdown on      Researching and analyzing DNA and protein sequences   Gathering information from all published sources   Searching databases for similar sequences and acquiring information about gene functions through sequence comparisons   Producing and editing multiple sequence comparisons for presentation   Predicting protein structures and RNA structures   Doing phylogenetic analysis       With an Internet connection and Bioinformatics For Dummies, you'll discover how to peruse databases that contain virtually everything known about human biology. It's like having access to the world's largest lab, right from yo

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值