- 博客(5)
- 收藏
- 关注
原创 Python 提高效率
最近师兄给了小任务,算一个P值。任务详情是这样的:第一步,有基因集A,23个元素,基因集B,451个元素,共有23*451=9922个组合(当然你要考虑去重),看在PPI数据库(145万多行数据)中出现的组合总个数(观察值);第二步,然后再以hg19中基因为背景基因集,放回随机抽取23个基因构成基因集C(记得要先把451个基因在hg19基因集中去掉),与集合B组合,看在PPI数据库中出现的组合总个
2015-12-13 21:53:33
315
原创 Python中文件读取readlines()方法
昨天用readlines读取一个文件,运行一会好好就自动挂掉,找了半天也找不出原因,然后问师兄列表元素个数是否有上限?我为什么这么问了,因为我的文件有13G,775,149,707行。师兄说没有,这就奇了怪了,就算按列表读进去内存会耗费很多倍,但是我的内存够大啊,1T 啊。师兄内存耗用过大的话,程序带不动。好吧,任务结束后去看看具体原因。那么只好用readline了,这样就不耗内存了,一行行读进去
2015-08-14 10:39:41
1837
原创 Python--处理文献中单词,统计个数
突然发现看文献很多单词不认识,然后就统计一下长度大于5的单词分别出现的次数。然后可以对比本地数据库,不认识单词上传到扇贝,当然这个对比也做完了,将在下一文章写入。扇贝是用Python搭建的网站,只能做到登陆,上传遥遥无期,只能使用扇贝API上传,网上有现成上传工具,当然也是Python写的,不够界面丑陋,算了能用就行了,不抱怨了。下篇传上完整代码,这篇是开通测试。
2015-07-13 18:47:57
487
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人