资料来源——周扬, 屈武斌, 卢一鸣, 杨毅, 张成岗. TXT2DNA: 基于DNA序列的文本编、解码及比对软件系统. 军事医学. 2011, 35(4):315-317
TXT2DNA: 基于DNA序列的文本编、解码及比对软件系统
TXT2DNA是由我们实验室新近设计完成的一个能够将汉字等文本信息编码为DNA序列并可将后者解码还原为文本信息、同时可提供基于DNA序列比对技术的文本数据分析的软件系统。TXT2DNA通过建立包括汉字字符在内的多种语言字符与DNA序列之间的唯一对应关系,为每个字符分配Unicode(唯一序列码)实现从文字字符到DNA序列的编码与解码功能,进而实现了DNA与汉字字符的互通;而文本比对功能的实现则是将文本处理技术与生命科学领域成熟的DNA序列比对技术进行整合,首先通过从字符到DNA的编码技术将汉字转换为DNA序列,随后利用序列比对程序如BLAT[1]、BLAST[2]等程序进行序列比对,最终通过从DNA序列到字符的解码技术,将DNA序列比对形式的结果解码、还原为原始文本信息,并通过自主设计的高分片段配对(HSP)拼接算法计算两个比对文本之间的相似度,将结果可视化。结果表明,TXT2DNA在针对文字信息进行DNA编码和解码过程中,可将DNA编码的文字信息通过解码技术实现文本无损还原。在实现文本比对过程中,不仅可以正确地识别相似性高的文本片段,而且可以灵敏地检测出仅有细微差异的文本相似片段&#