[解密] DNA存储技术究竟牛在哪里?

版权声明:更多内容,请关注【架构师技术联盟】公众号 https://blog.csdn.net/BtB5e6Nsu1g511Eg5XEg/article/details/78889059

640?wx_fmt=png&wxfrom=5&wx_lazy=1


0?wx_fmt=gif&wxfrom=5&wx_lazy=1

      针对未来存储密度市场,前期在文章“50TB ExaDrive SSD投入商用”和“HP忆阻器内存和IBM原子磁盘”中,分别介绍了大容量SSD忆阻SCM原子存储技术,但今天给大家普及的是另外一种前卫技术——DNA存储技


      DNA存储则能提供极大密度,是未来大容量存储较理想的介质,也是下一代冷存储的替代品。从原理上来讲,DNA存储是通过DNA中G、T、A和C 4种碱基代表二进制数据(0、1、2和3),理论上1克DNA可存455EB数据。DNA存储的读取技术则是采用DNA测序技术实现,DNA测序技术发展迅速,性能每次可达960Gb,成本也很低,性价比已经接近商用;目前的难题在于DNA存储的写性能,当前写性能每天只能达到Mb量级,极高写成本使得离商用还有很长的路要走。


      由于DNA存储还有很多技术难题需要攻克,DNA存储目前还是原型概念验证阶段,主要是学术研究机构在从事,至少还需要5年时间才可能有DNA存储商业产品应用,但从长期投入来看,微软等厂商觉得是很有投入价值的,这很可能是未来存储介质市场的切入点,DNA芯片技术、芯片电路设计测序合成技术结合将可能是继原子存储、SCM介质之后的下一个存储技术热点

 

      DNA存储是将二进制文件通过编码映射成DNA里A、T、G和C碱基序列,按序列顺序通过人工合成技术形成长链DNA来保存数据的方法成为DNA存储技术,数据写入即人工合成DNA数据读取即DNA测序数据拷贝即DNA复制,利用DNA中碱基序列编码存储二进制数据具体实例如下所示。


0?wx_fmt=png 

      DNA存储从架构上讲,主要包括类似于存储控制器的编解码器、数据读取写入设备和数据存储设备,从技术成熟度上讲,DNA技术可以支持开发DNA存储原型,但在成本和自动化等方面还面临技术的挑战。


0?wx_fmt=png


  • 编解码器(存储控制器)完成二进制转换为DNA碱基序列(碱基对A,T,G和C可对应0,1,2和3),对误码进行误码纠正、文件索引的方法对效率影响大。

  • 写入设备(写磁头)通过DNA合成含有A、T、G和C的DNA数据链保存数据,人工合成DNA。当前DNA合成技术已经可以按程序任意组合在DNA链条上加入碱基,使得DNA写入成为可能。

  • 存放设备(磁盘柜)实现DNA存放,单个细胞核23对染色体含30亿对碱基可存12Gb数据,1克DNA可存储EB级数据。

  • 读取设备(读磁头) 实现DNA存储的读取,基于DNA测序(Sequencing)技术,目前最常用的测序方法是桑格测序法(Sangar)。


0?wx_fmt=png


      Sanger测序的原理是将测序DNA进行大量复制(PCR),将DNA分装不同试管中,分别加入有剪切作用的染过色的双脱氧核苷酸ddNTP,反复PCR循环让DNA复制,当遇到ddNTP复制断裂,形成长短不一的DNA单链,加电出现电泳现象,短链DNA游速快,长链游速慢,形成长短排序,激光照相,形成排序光谱。

 

      DNA存储优势是显然意见的,密度理论上1克DNA可存储455EB数据量,DNA存储时间也很长,在干冷条件下,可保持100万年以上,常温下可保持2000年以上,常温保存能耗很低,基本不需要电力。但是技术挑战也与之并存,存储密度受到编码效率、备份数量、分类索引等方面的制约,通常比理论密度低。

 

      DNA存储编纠错挑战: 编码纠错的原则是避免重复,重复导致读错概率大,最常用的方法是加入验证信息。在解决误码问题上,微软采用了三进制编码原理,在4个碱基中,其中一个碱基用作前一位指示,后三位用作0,1,2编码。

 

      DNA存储编索引挑战: 目前比较流行的一种DNA存储索引方法叫KV方式,针对文件,以Key-Value的方法形成Key值,将Key值形成文件头DNA索引和地址,再将文件内容和索引合成DNA。

 

      DNA存储写入合成挑战: DNA合成过程是控制4种碱基分别加入DNA合成片段中,将片段链接合成较大的片段的过程。DNA合成依然较困难,小片段合成可以在实验室,但是大规模合成需要专门基因合成服务公司才能完成(如GeneArtTwist Biosicence)。

 

      DNA存储拷贝技术: DNA复制通常采用成熟的PCR方法,该方法在1983年发明。大致过程是先将DNA双链加热分开,加入聚合酶、DNA引物和碱基,DNA单链开始产生双链实现DNA的复制。

 

      关于DNA存储的技术研究和应用前景十分广阔,当前主流方向聚焦在密度、保存时间、低能耗等优点,DNA存储的存取技术(合成和测序技术)得到了快速发展,如果能很好地解决成本性能问题,那么在未来,会极大限度加速DNA存储取代现有存储的可能性和进程。


      DNA存储在归档场景具备占地小、能耗低、密度大的特点,美国国家图书馆、维基百科、Google有意愿将资料备份在DNA存储上;在军事用途应用中,可以通过人体携带DNA数据有了DNA存储技术,我们人体就是“云硬盘”。在个人应用中,未来个人可以随身携带超大容量的DNA USB数据盘。


      但归根结底,DNA存储商用很大程度依赖DNA合成技术和测序技术的发展,当前测序技术发展较快如Pacbio、Illumina等公司,DNA合成技术发展慢,需要较大的理论和技术突破才可能,在另一方面,这也可能导致未来商用的不确定性。

 

      DNA存储技术如其他技术发展,DNA存储技术的发展也离不开所处的生态环境,目前值得关注的生态圈领域主要包括,DNA芯片DNA合成技术DNA测序等。


      DNA芯片主要包括AffymetrixIllumina和Affymetrix公司,Affymetrix利用基因芯片,通过原位合成法,大规模生产DNA探针。Illumina和Affymetrix合作开发DNA探针芯片由于测序。DNA合成包括美国IDT美国、德国GeneART、中国华大基因和提供DNA合成服务的Twist公司和微软合作。


      DNA存储至今已有很多成功尝试,哈弗大学George Church 在2012年首次650KB数据写进DNA存储;EMBL欧洲生物信息实验室2013年将20MB数据写进DNA存储;这些都是科研机构的尝试,但在2016年7月,微软研究院和华盛顿大学2016年发布DNA存储原型论文,并在同年7月将200MB的数据放入一段DNA中,引发极大关注,微软发布DNA存储原型,并决定推进其商用。


0?wx_fmt=png


      这次试验打破之前20MB的最高纪录,发布了新的Error-Correcting Code,适合DNA读写错误的纠正,同时对DNA数据可以随机读取。试验的成功促使微软加速推进DNA存储商业应用的研究。


>>>推荐阅读



温馨提示:
请搜索“ICT_Architect”“扫一扫”二维码关注公众号,点击原文链接获取更多技术资料

640?wx_fmt=png

点击原文链接获取技术资料

0?wx_fmt=gif

展开阅读全文

没有更多推荐了,返回首页