中国超级计算机放哪了,中国的超级计算机都在做哪些工作？

最新推荐文章于 2021-07-17 08:06:24 发布

周毛

最新推荐文章于 2021-07-17 08:06:24 发布

阅读量424

点赞数 1

文章标签：中国超级计算机放哪了

本文探讨了超级计算机在生物信息学和计算生物学中的应用，尤其是在基因组测序和蛋白质结构模拟方面的计算挑战。作者指出，现有的商用测序技术面临数据拼接难题，而蛋白质结构模拟则需要处理庞大的原子运动计算。超算的加速能力对于缩短研究周期、提高研究效率至关重要，但即便如此，模拟细胞全原子级别的运动仍面临巨大的计算难度。文章强调了超算在科研中的价值，同时也揭示了其在解决实际问题时面临的局限性。

摘要由CSDN通过智能技术生成

科大(南七技校)有一个超算中心，放在东区图书馆底下

好巧我同学做生物信息学，以前实验室没有自己搭机组的时候听说会用到

做什么呢？分析数据。比如有两批细胞，一批啥都不干，另一批给它喂砒霜，然后喂砒霜的死了一大片，有少数几个细胞活下来了。卧槽流弊了，居然毒不死，我要分析分析你为啥这么流弊。

人类基因组有两三万个基因，我先做个测序，看看你每个基因表达了多少。多数人可能不知道，现在商用的测序技术还不够流弊，测序都是把基因打成片段然后拼起来的，如果一个基因有2000个碱基拼起来(这算很少的了)，那么实际上它是被打成几百个大概几十个碱基长度的片段，所以两万个基因，实际上有数百万甚至上千万个片段，相当于一张表有两列，几百万行，第一列是片段内容，第二列是片段含量

光把这几百万个片段拼成两万个基因就已经很困难了，不信你自己拿EXCEL生成十万行十位随机数，然后你写一个十位数，查找一下在哪几行，出现了多少次，看看需要多久(这个例子只是随便说说的，实际上序列拼接比这个复杂多了)。现在一般商用的基因组测序需要几天出原始结果，初步分析也要几天，整个搞一遍需要个把月(因为需要排队等机时)，所以一般我们拿原始数据(通常是十几个G到百G不等)然后自己分析。

跑上一两周甚至个把月(取决于你是几个G还是几百G的原始数据)，终于结果出来了，两万个基因在正常细胞和毒不死细胞内有什么差异，我终于可以一一说出来了(这是一把过的情况，实际上可能一周内机组突然出了bug，你的结果需要重新跑)。这时候，你的师兄告诉你一个消息，这次实验的细胞可能有问题，需要重新做，顺带可能会多几组对照组，你心里盘算，跑一次一个月，多三组对照组就要四个月，磨磨蹭蹭最快也要半年能投出去一篇文章，也不一定中。。。你和你国外的同学联系，他们组里有更加牛逼的超算，速度上快十倍，你心里一算，十倍，四个月就变成12天，两周不到，人家半年扔出去十篇，总有一篇能中，你却毕业无望。。。

。。。。。。。。。。。。。。。。

我们组里有做计算生物学的，不同于生物信息学，做的是蛋白质结构模拟

我们知道，一个蛋白质通常有几百个氨基酸，每个氨基酸大概有几十个原子，所以一个蛋白质大概有几千甚至上万个原子，我们需要模拟这几千个原子的运动轨迹。另外，一般而言某种蛋白质在生理条件下浓度是很低的，可能是几微摩尔每升，那水是多少呢？水是1kg/L，18g/mol，所以有50多摩尔每升，也就是说水的浓度是蛋白质的几千万倍，一个水三个原子。一个蛋白质的几千个原子，就要再附带几千万个水的原子——这不现实，实际上因为我们的任务只是模拟结构，所以不需要这么精确，我们通过把一个水看做四个质点，然后一个蛋白质分子配几千个水就足够模拟出不错的结构了。所以通常我们一个模拟体系会放几万个原子。原子运动的频率是多少呢？我们一般取1飞秒，也就是10的负12次(感谢评论区纠正，应该是15，但是不影响后期对工作量的整体估算)方秒，这是氢原子的震动频率。所以我让这几万个原子动一下，相当于过了一飞秒，而实际上生物过程都是微秒级别的，也就是说，需要动一百万(应该是十亿)次——实际上，一微秒用我们实验室的机组，我师兄跑了一个月。

一个蛋白质动一微秒，需要一个月，我们如果想模拟一下一个细胞动一下呢？一个细胞的直径大约1微米，所以体积大约10的负18次方立方米，也就是负15次方升，蛋白质浓度以一微摩尔每升计算，一个细胞就有十的负21次方摩尔，一摩尔是6点多乘10的23次方个，所以一个细胞的蛋白大约几百个上千个(感觉有点少？当然啦，因为是一种蛋白在细胞内浓度是微摩尔每升，实际上蛋白有上千种，但是由于我们可能只研究这一种蛋白，所以和之前我们把水的原子数简化成和蛋白分子在差不多数量级的水平上一样，在这里我们也做简化，认为一个细胞有数千个蛋白)，所以一个细胞动一毫秒(细胞运动的速度在这个范围里)，就相当于一千个细胞动一毫秒，已知一个细胞一微秒等于一个月，可知一个细胞一毫秒需要一百万个月，也就是数十万年，相当于你模拟完一次，足够猴子进化成人了。

如果有超算，速度快四个数量级，可能十年做完一次模拟，快六个数量级，就可以让一个人靠这个毕业了，快七个数量级，就可以灌水发文章了

综上所述，超算可以被用来灌水发文章

ps:希望热心只有替我算一下，现在最快的超算比商用的显卡快多少个数量级，如果是六个数量级以上，那真的有望做细胞的全原子模拟了

——————————————————————

20191028更新

第一次回答被关注，那就更新一波吧

首先关于超算怎么租用，已经有答主提过了，主要还是用于基础科学研究，而且生物的两大方向生物信息学和计算生物学由于发展比较晚，其实是很难竞争其他课题的，能用上超算项目的不多

其次，在我看来生物信息相比于计算生物学更加适合用机器学习的算法，也更加需要专业的计算机方向的人才去改进算法(但是生信本身就很难入CS专业的法眼)。生信的入门操作就是序列比对，算法就是很暴力，毋庸置疑，生信研究生我敢说有一半以上本科计算机背景的就已经不错了，实在是缺人才

接着反正提到测序了，不如讲讲人类基因组里的内含子，非编码区吧。人类的两三万个基因并不是连续分布的，中间有远超基因长度的非编码区存在，把基因一个个隔离。由于测序是基于片段的，同样一个片段如果太短，那么它就有可能属于编码区，也可能属于非编码区，只有当你拼接到足够长之后，才能确定它是不是在编码区，然而反过来你可能必须预设这个片段属于编码区，然后你才能把它延长，在这里因果是混乱的，充满了循环论证。再有就是，人的一个基因也是不连续存在的，中间有内含子存在，这使得你从转录组获得的结果在原理上就不能用作基因组拼接的依据，并且你很难根据片段区别是突变了还是拼错了，你拼好一个带有内含子的基因，会剩下很多碎片，这些碎片也许包含了一个样本天然的突变区域，你把它当成垃圾，但你拼出来才是错误的。再有，人类的基因有复制子，而片段的拼接是依赖含量的，比如从序列上看AB同时可以和BC,BD拼接成ABC或者ABD，但是AB的数量接近BC但是少于BD，于是你把ABC连接在一起，实际上ABD才是对的，只不过BD这个片段被复制到基因组其它位置，所以BD含量偏高，这只有你拼着拼着发现不对了才会发现错误。所以实际上算法往往只能找到局部最优解，这才有辛辛苦苦算出来结果，但是实验上压根不是这样这种事发生

不同于生信的结果从原理上就不能被一些实验学科采信(相关性和因果性的问题)，计算生物学至少从原理上是可能可靠的，但也仅限于全原子模拟，因为基于的是物理模型，世间万物不可能违背物理定律。我就讲讲全原子模拟在实际操作中可能会被人质疑的地方，首先就是加水的问题，上面我已经计算过，实际上水与蛋白的比例是恐怖的，但是模拟的时候加水并不会加太多。其次就是力场问题，水是小分子，并且能够形成丰富的氢键，单纯水的分子动力学模拟就不难么简单，适用于水的力场不一定适用于蛋白质，而分子动力学模拟本身就要求同时存在蛋白质和水分子，不能跑着跑着蛋白质散架了，或者跑着跑着蛋白质缩成一团，这都是力场不合适导致的。那为什么没有合适的力场呢？因为蛋白质的立场参数本身就很难通过实验获得。再接下来的问题就是算法问题了，实际的哪怕是全原子模拟，实际上有时候把水看做四个原子反而能够得到符合实际的结果，但是这本身就不符合化学。为了模拟更大尺度的过程，采用粗粒化模拟，把一个氨基酸看做几个原子，那就更加偏离第一性原理了，但是往往却能得到符合实验数据的结果——但是丧失了预测的能力，进一步模拟跑出来的东西实验上可能做不出来。

最后，评论区还是很和谐的，我很高兴。我们做基础研究的其实很难在有生之年做出发文章以外更加“有用”的东西，大家都是普通人，我们也会时常质问自己做的东西有什么用，但是往往结果都是沮丧的，文章可以说是唯一能激励我们做下去的动力，科技论文严谨的逻辑至少从形式上给我们一种仪式感，论文背后的地位，名声以及利益是生存的基础。

最后说说我的看法，坐拥最好的资源用来灌水，着实可耻。有这个闲工夫，干点别的不好么。