bioinformatics
文章平均质量分 66
0x0101
这个作者很懒,什么都没留下…
展开
-
pan-genome analysis sample code
This is a C++ demo for pan-genome analysis, by bbsunchen:/*start:2012/06/11 by sunchenamend: 1.2012/06/12 by sunchen construct a array of 2^n conculate 2.2112/06/12 by sunchen intro...2012-12-25 12:50:56 · 266 阅读 · 0 评论 -
生物信息学工具使用的经验之谈
荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。 本文讨论的主要问题:1.确保你不会泄漏保密的数据2.保证你自己可以重复你的工作3.选择合适的数据4.确保保存了重要的文件 我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Har...2012-01-16 18:08:13 · 486 阅读 · 0 评论 -
如何保持开放的头脑
世界向我打开一扇大门,我却选择转过身,背对这个世界。 这句话用在我身上再合适不过,在中科院的两年时间,我的面前是浩如瀚海的生命科学的世界,可是我却受到各种各样的声音的干扰,认为做生物方向没有前途,仍然搞技术,每天痴迷于学习各种各样的IT新技术。 可是,现在我真的觉得自己在生命科学中,能够做很多事情。 也许,我只是没有open mind,可是我还很年轻啊,为什么...2012-01-07 15:14:49 · 156 阅读 · 0 评论 -
ortholog/inparalog/coortholog
Homologs which originate following gene duplications are called paralogs, a term in biology often mistakenly thought to apply to homologs within a genome. Paralogy can exist between gen...2012-01-04 16:52:40 · 332 阅读 · 0 评论 -
非root权限用户安装perl模块
网上有很多说非root权限怎么安装perl模块的帖子,我觉得说的都不到位 linux系统已经自带了perl,但是如果需要某一个模块的时候,可以单独安装模块 如果你有root权限,你可以使用CANP,如果你没有root权限,那么bbsunchen教你使用如下方式1. 安装模块进入模块所在路径,就是你的模块放在哪里,你就cd进去,然后执行下面的命令...perl...2012-01-04 09:36:49 · 339 阅读 · 0 评论 -
非root权限安装perl
在使用Linux或是unix时,perl是一个非常有用的脚本的语言。关于perl的模块安装,网上也有很多介绍,一方面可以通过不同套件自带的软件安装工具安装,一方面可以通过cpan安装,再者就是可以直接编译源代码。 这样,对于拥有root权限的用户来说,没有任何问题,可是对于不拥有root权限的一般用户来说,如果想在自己的home目录下安装与使用perl的模块,还有很多特别...原创 2012-01-03 21:18:12 · 393 阅读 · 0 评论 -
运行interproscan/iprscan会遇到的问题
1. 运行iprscan的时候,一般需要根据机器的能力和安装interproscan时设置的chunk大小,将序列文件切成若干小文件,这些小文件,每个文件包含1-2个chunk大小序列条数的文件。这个时候,有可能原始文件也放在切后的文件夹中忘记删除。 2.我现在挺怀疑interproscan在书写过程总,对软连接的容错能力的。因为我在两台大型机中都有软连接的存在,在这两台机器上运行都会...2012-01-01 21:28:31 · 626 阅读 · 0 评论 -
Interproscan性能测试
interproscan的安装和运行,很多网站都有介绍,这里主要介绍下我做的性能测试。今天bbsunchen做了interproscan性能测试,具体数据不能公布,结果大致如下: 1.interproscan运行时,蛋白质平均长度对运行时间影响不大。 蛋白质平均长度是30aa和蛋白质平均长度是300aa时,运行效率都大致维持在100条序列/小时 2.是否进行crc64计...2011-12-28 20:50:27 · 503 阅读 · 0 评论 -
华大的生物信息培训教材
LOL...2011-12-19 15:45:50 · 251 阅读 · 0 评论 -
使用Vienna RNA进行RNA二级结构预测
现在比较准确,比较流行的RNA二级结构预测软件就是Vienna RNA。 我也是在使用这个软件进行大规模数据的二级结构预测。 可是现在在网上找到的资料,很少有能够清楚地写明在linux本地大型机中怎么运行Vienna RNA的傻瓜教程,包括Vienna RNA webserver的官网,其说明也不是很详细。 在附件中,我给出了 Current Pr...2011-11-07 15:50:56 · 4552 阅读 · 1 评论 -
R语言绘制heatmap热图
介绍如何使用 R 绘制 heatmap 的文章。今天无意间在Flowingdata看到一篇关于如何使用 R 来做 heatmap 的文章(请移步到这里)。虽然 heatmap 只是 R 中一个很普通的图形函数,但这个例子使用了2008-2009赛季 NBA 50个顶级球员数据做了一个极佳的演示,效果非常不错。对 R 大致了解的童鞋可以直接在 R console 上敲?heatmap直接...原创 2011-11-22 10:40:52 · 10980 阅读 · 0 评论 -
绦虫基因组研究方法
今天跟一个同学讨论了绦虫基因组研究方法,同时我也看到一些同学在用这套策略做枸杞的基因组,我想这应该是真核生物基因组分析一些常用的策略。简要记录一下: 首先是基因预测,有三类方法:1. denove从头预测,比如基于ORF,马尔科夫模型等 2.通过转录组数据,mapping到基因组上 3.与nr数据库等比对,blastp等做一下序列的同源比较就可以了常用的软件有glimer等 然...2012-12-21 21:21:23 · 117 阅读 · 0 评论 -
PyDev,在Eclipse中运行python
最近学python做高精度运算。虽然网上有很多高精度运算的算法,可是用了一个O(n^2)的算法,C++竟然运行了半个小时,坑爹。今天发现,python是跟我一年生的,1989,属蛇。而python的翻译也是蟒蛇。真是太巧了!下面这篇文章是说怎么在eclipse中运行python: PyDev 简介2003年7月16日,以 Fabio Zadrozny 为首的三人开发小...原创 2012-04-20 10:38:27 · 460 阅读 · 0 评论 -
并行计算的强大
最近在处理一批数据,10的8次方,处理完毕大概要一个月,并且这个程序占用的CPU只有一个(我从来没有注意到这个问题啊啊啊)。突然师兄提醒我可以把10的8次方条数据拆成10个10的7次方,作为10条任务并行处理,我艹,三天就跑完了啊,坑爹呢这是我之前怎么没想到呢混蛋!! 以后单任务的程序一定要注意下CPU的使用情况。 并行处理也有个简单的方法,就是把原始文件给切割后提交,让队列调...2012-04-17 10:36:50 · 223 阅读 · 0 评论 -
Qt程序在windows下的发布
这个问题,其实 Qt 的 manual 中解释的已经比较清楚了。下面是我根据自己的理解和实验后写的东西,希望比Qt文档容易理解一点。另外:你可能对 Qt 插件学习(一) 感兴趣。如果需要制作安装程序,请访问 NSIS学习笔记(以Qt4程序打包为例)下面不涉及静态编译(静态编译可以看看这儿),只包含动态编译(也就是Qt默认的情况),主要又分 mingw 和 msvc 两种情况:Mi...原创 2011-12-02 14:21:59 · 77 阅读 · 0 评论 -
【原创】用C++(QT)写跨平台GUI详解
你还不知道什么是Qt?... ...什么?你还不知道C++能快速开发部署GUI?...you got be kidding me这篇文章,教你怎么用Qt Creator2.0来做一个GUI。下载地址什么的不罗嗦,google之。我这里给出的,是每个QT GUI 工程用QT creator来做时的流程。 假设你已经安装好了qt sdk。 1.文件->新建工程或文件。 2.选择Qt控件项目-...2011-12-02 10:53:11 · 225 阅读 · 0 评论 -
数据可视化之美
最近越来越对数据可视化感兴趣了,正因为此我学习了R,excel,还有QT,为跨平台做努力。 我觉得,如果有时间,我会学习html5,php和mysql,来扩充未来数据可视化的无限可能。 同时,我也会使用Air,flex来做东西,actionscript的一点小伎俩。我觉得,未来的数据可视化,是我可以做的一个工作。 正好,今天,在TED上看到这个视频 ...2011-12-01 20:08:14 · 193 阅读 · 0 评论 -
Perl也可以读写excel哦
perl 里面用Spreadsheet::WriteExcel 和 Spreadsheet::ParseExcel 读写excel,非常方便。说实在的,很多时候收到的数据都是excel写成的,再转成txt有点太白痴了吧。虽然有篇文章叫《why python, why not perl》。可是大家都用perl,还是容易交流一点的啊·...原创 2011-12-01 15:32:40 · 214 阅读 · 0 评论 -
R语言学习入门
R语言是很多统计学和数据可视化的常用工具。R语言也是生物信息学习中最常使用的语言之一,因为很多的数据分析和图,都是用R语言实现的。同时,Matlab也能实现相同的功能,不过,你通常要忍受盗版的困扰,同时学习起来也是非常麻烦滴。这里给出R语言学习的基本入门pdf书籍。都是中文版的。如果需要扩展的学习资料,或者有什么疑问,请为我留言。最近一段时间,很关注数据可视...2011-12-01 15:28:29 · 129 阅读 · 0 评论 -
PAML中文文档/计算分子进化
先说PAML中文文档,PAML是杨子恒院士写的软件,这个中文文档是bbsunchen根据网络资源整理的详细文档。有PAML使用的详细步骤。再说说计算分子进化,杨子恒大大N年磨一剑的书,计算的算法、理论的意义、生物的背景都叙述得非常好。先上本书英文版下载地址:http://bbs.bbioo.com/thread-57288-1-1.html本书中文版由复旦大学翻译,可以买,据说翻译有点水...2011-12-12 16:14:39 · 1294 阅读 · 0 评论 -
perl实现蛋白质翻译以及蛋白质个数统计
这个程序,用perl语言实现了RNA序列翻译蛋白质序列的过程。考虑了AG GU alternative splicing influence and start coden, stop coden统计了RNA序列可生产蛋白质长度引用请注明出处 #!/usr/bin/perl -w# Program name: statProtein_splicing.pl# Au...2011-10-27 15:09:54 · 570 阅读 · 0 评论 -
300+门美国一流大学的视频课程(涵盖各专业)
【课程分类】l 第一部分:公共课l 第二部分:专业课(人文社科、工科、理科、医学)l 第三部分:就业指导l 第四部分:应试备考(四六级、BEC、托福、雅思、GRE)注:均为视频课程,点击课程名称即可在线观看 觉得不错的话,@给你的好友们,和他们一起分享吧~~~~~~ 【课程列表】*****************************...原创 2011-10-16 10:48:42 · 4850 阅读 · 0 评论 -
生物信息学论坛
中国生物信息 by 中国科学院上海生命科学研究院生物信息中心,可以学到很多东西 R语言中文论坛 生物统计方面的 丁香园生物信息版 生物谷生物信息版 这两个论坛老师都向我推荐,很多中科院的老师都经常在上面回答和讨论问题 科学网生物信息版 生命经纬生物信息版 生物信息学论坛 单纯讨论生物信息 计算机科学论坛生物信息版 计算机出身从事生...2010-08-23 14:24:11 · 451 阅读 · 0 评论 -
关于 Gene Ontology(GO网络)
The Gene Ontology project is a major bioinformatics initiative with the aim of standardizing the representation of gene and gene product attributes across species and databases. The project provide...原创 2010-08-18 10:03:34 · 553 阅读 · 0 评论 -
利用E-mail向原作者求文献
根据作者E-mail地址,向作者索要。 这是最有效的方法之一。为了更方便大家向作者索取原文,但一定要简洁!一般都愿意向你提供。如果作者有自己的主页,可以去作者的主页看看。不过一般查找作者的主页倒不容易! 记住你的信箱尽量大一点,否则一些大的文件搞不定! 1 Dear Mr./Mrs.: ________(Author name) I am a graduate student of————...原创 2010-08-06 09:12:34 · 3038 阅读 · 0 评论 -
数据挖掘十大问题,十大算法
在ICDM2005前夕,美国的吴信东教授等人让世界上这个方向的顶级专家列出了他们各自认为数据挖掘研究领域的10大挑战性问题,然后他们总结这些专家的意见,得出了数据挖掘10大挑战性问题:Developing a Unifying Theory of Data Mining Scaling Up for High Dimensional Data/High Speed Strea...原创 2010-05-08 20:48:01 · 180 阅读 · 0 评论 -
Annoying hash in perl
感觉Perl里很麻烦的就是hash的变换了,这里给出一些复杂的变换 散列的数组如果你有一堆记录,你想顺序访问它们,并且每条记录本身包含一个键字/数值对,那么散列的数组就很有用。在本章中,散列的数组比其他结构用得少一些。 1 组成一个散列的数组你可以用下面方法创建一个匿名散列的数组: @AoH = ( { husband =...2010-05-03 15:52:50 · 138 阅读 · 0 评论 -
关于中心法则的一个比喻
感觉自己以后做学术报告应该会用到很多素材来充实,那么就从现在开始积累吧。关于the central dogma的比喻: 在建造一面墙,DNA是原始图纸,比较珍贵,建造的时候,先用复印机复印一份,由于纸张质量和复印机质量的问题,有时候会出错。复印出来的图纸就是RNA,建筑工人用这张图纸去建造墙,也就是蛋白质。等等。。...2010-07-13 17:16:50 · 157 阅读 · 0 评论 -
NCBI参考序列RefSeq
关于RefSeq的基本信息,可以参照一下几篇文章【开启传送门~!@#¥%……&*】http://liucheng.name/381/http://www.biosino.org/pages/ncbi-10.htm官方版本:http://www.ncbi.nlm.nih.gov/RefSeq/RSfaq.html 不过可能我现在更关注与RefSeq的格式说明,这一阶段的失...2010-05-01 19:53:39 · 1554 阅读 · 1 评论 -
[转]应用于第二代测序技术的生物信息工具
Integrated solutions* CLCbio Genomics Workbench - de novo and reference assembly of Sanger, Roche FLX, Illumina, Helicos, and SOLiD data. Commercial next-gen-seq software that extends the CLCbio M...2010-04-27 13:17:44 · 450 阅读 · 0 评论 -
linux文件操作命令
想想自己一开始处理文件的时候,看文件有多少行,都要写个perl脚本,好不麻烦啊...以此文纪念自己傻逼的科研生活linux 文本操作命令1. cat 查看文件中的内容, -n 查看时为每一行加编号;-b 和-n类似,只不过对于空白行不编号;2. head file 显示文件头的内容,默认显示10行,加 -n 可以显示指定的行数;3. tail file 显示文件尾的内容,默...原创 2011-04-21 12:30:34 · 118 阅读 · 0 评论 -
国立中正大学bioinformatics wiki
http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=amos_package 上面的链接是国立中正大学生物信息学部建立的wili网站,其中详细记录了很多bioinformatics的分析方法和软件的详细使用技巧,这个amos是用来拼接454和solexa的contig的,比官方或者其他地方的记录都要详细。 ...2011-04-21 12:38:56 · 202 阅读 · 0 评论 -
介绍一个bioinformatics的toolkit
最近扫到生物信息学软件的paper,发现有很多bioinformatics的toolkit,这里介绍一个bow,剩下有些我也打不开,但是关于svm等等的toolkit还是很多的比如 SVM light http://svmlight.joachims.org/PASBio http://research.nii.ac.jp/~collier/projects/PASBio/POSTLA...原创 2011-07-22 11:50:11 · 420 阅读 · 0 评论 -
C++ 生物信息文件处理模板
#include <iostream>#include <fstream>#include <cstring>#include <cstdlib>using namespace std;int main(int argc,char *argv[]){ /*ifstream testf; testf...2011-07-20 20:11:28 · 185 阅读 · 0 评论 -
机器学习 及其在生物信息学的应用
推荐一个机器学习的网站先【传送门】 机器学习,模式识别,人工智能 三个应该是最相关的课程了吧,其中人工智能的课程更偏向于说教,而模式识别简直就是数学课,机器学习则可能是算法课,更适合程序员去学习吧。 由于我现在的方向是生物信息学,所以给大家推荐一本书,叫《生物信息学:机器学习方法》,网上提供下载,我就不放在附件中了。 趣味数据挖掘系列的blog:http://blog.sc...2011-10-03 17:06:05 · 4854 阅读 · 0 评论 -
Ka/Ks与分子进化常用软件
http://pubmlst.org/software/analysis/start/manual/dsdn.shtml另外,请参数 分子进化基础-李维文 Ka/Ks 在遗传学中,Ka/Ks或者dN/dS表示的是异意替换(Ka)和同意替换(Ks)之间的比例。这个比例可以判断是否有选择压力作用于这个蛋白质编码基因。 不导致氨基酸改变的核苷酸变异我们称为同义突变,...原创 2011-09-15 16:37:01 · 5578 阅读 · 1 评论 -
统计学中的自由度是神马
第二次学习统计学啦...经常自由度啊自由度的,一直想自由度是神马?!原来概念很简单。翠花,上概念:自由度(degree of freedom, df)在数学中能够自由取值的变量个数好,解释一下 如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。 在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。...原创 2010-10-26 23:53:36 · 1357 阅读 · 0 评论 -
数学*未来
这次的数学考试成绩下来了,低得惊人。 说实话,在交卷子的那一瞬间,我的自信爆满,以为即使考不了满分,也能考个90+。 成绩下来的时候,真是出乎我的意料。 其实和别人对答案的时候我就该有所预料了。 联想起来自己以前数学一直不是很好,但是本科的时候学习计算机却感觉到压力不大,还开课给别人讲离散数学。突然有所感悟。这次的数学考试其实都是会的,但是结果却都是错误的,估计老师...2011-01-18 15:50:08 · 107 阅读 · 0 评论 -
生物信息网站介绍
真不知道又多少人会care我的blog。先写在这里吧,这次给大家介绍一个生物信息学最新研究成果集成的网站。 生物小菜们都懂得,看paper的时候比较头疼,看完一篇文章还不一定能够收获什么,我以前是比较倾向于看环球科学的文章,就是science american的中文版,但是说实话,那个书比较贵。 http://www.bioon.com/biology/advance/Inde...原创 2011-01-17 16:43:34 · 193 阅读 · 0 评论 -
统计fasta格式数据数量
今天很2b地用perl自己写了个统计fasta格式数据量的script#!/usr/bin/perl -w# Program name: detectDataNum.pl# Author : SunChen# Contact : bbsunchen@gmail.com# Date : 04/21/2011# Last Update : ...2011-04-21 13:27:50 · 544 阅读 · 0 评论