用Python将文本转换为DNA序列 脱氧核糖核酸(DNA
)是一种有前途的存储介质,能够存储和存档我们大量的数据。
当比特被转换为碱基时,数据可以在DNA中进行编码。
编码数据就是将其从一种形式转换为另一种形式。编码的图像、录音、视频和字符可以用来编译和执行程序,传输、存储和压缩/解压数据,以及转换文件。我决定将输入的文本编码为DNA
序列,希望能将其储存起来。
以下是我是如何做到的。
关于该项目
在文本被映射到核苷酸序列之前,它必须被转换为二进制序列。在计算科学中,二进制序列用比特和字节表示对计算机的指令和数据类型。二进制数字,或比特,存储0或1,使它们成为最小的存储单位。8位组合在一起构成一个字节,如01011010和01000001。
核苷酸是一种由戊糖(5个碳原子)、一个磷酸基团和一个含氮碱基组成的化合物。在DNA中,4个含氮碱基是腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。它们的序列将为蛋白质编码并携带所有遗传信息。
核苷酸通过一个核苷酸的磷酸基和下一个核苷酸中戊糖的第3个碳原子之间的共价键连接在一起。因此,核苷酸的配对产生了糖-磷酸盐-糖-磷酸盐-等等的DNA骨架。这个序列形成一个多核苷酸链,2个盘绕的多核苷酸链产生了DNA的标志性双螺旋。
整个程序是基于一个简单的映射,其中2位序列被转换成核苷酸,每个核苷酸由一个字母(A、G、C或T)代表。
当DNA被测序时,有可能确定碱基的顺序,在普通的序列格式中,它们可以用一个字母表示。为了带来一个新的或修改过的序列,有可能将A、G、C或T移动一下。
关于DNA中的数字数据存储的更多信息,请阅读我以前的文章《数字数据存储的未来在于DNA》。
剖析该项目
起初ÿ