rost反剽窃检测系统_TXT2DNA:基于DNA序列的文本编、解码及比对软件系统

资料来源——周扬, 屈武斌, 卢一鸣, 杨毅, 张成岗. TXT2DNA: 基于DNA序列的文本编、解码及比对软件系统. 军事医学. 2011, 35(4):315-317

350fed5409310530f717740e0a210f15.png

TXT2DNA: 基于DNA序列的文本编、解码及比对软件系统

TXT2DNA是由我们实验室新近设计完成的一个能够将汉字等文本信息编码为DNA序列并可将后者解码还原为文本信息、同时可提供基于DNA序列比对技术的文本数据分析的软件系统。TXT2DNA通过建立包括汉字字符在内的多种语言字符与DNA序列之间的唯一对应关系,为每个字符分配Unicode(唯一序列码)实现从文字字符到DNA序列的编码与解码功能,进而实现了DNA与汉字字符的互通;而文本比对功能的实现则是将文本处理技术与生命科学领域成熟的DNA序列比对技术进行整合,首先通过从字符到DNA的编码技术将汉字转换为DNA序列,随后利用序列比对程序如BLAT[1]、BLAST[2]等程序进行序列比对,最终通过从DNA序列到字符的解码技术,将DNA序列比对形式的结果解码、还原为原始文本信息,并通过自主设计的高分片段配对(HSP)拼接算法计算两个比对文本之间的相似度,将结果可视化。结果表明,TXT2DNA在针对文字信息进行DNA编码和解码过程中,可将DNA编码的文字信息通过解码技术实现文本无损还原。在实现文本比对过程中,不仅可以正确地识别相似性高的文本片段,而且可以灵敏地检测出仅有细微差异的文本相似片段&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
来源   中文电码,又称中文商用电码、中文电报码或中文电报明码,原本是于电报之中传送中文信息的方法。它是第一个把汉字化作电子讯号的码表。   自摩尔斯电码在1835年发明后,一直只能用来传送英语或以拉丁字母拼写的文字。1873年,法国驻华人员威基杰(S·A·Viguer)参照《康熙字典》的部首排列方法,挑选了常用汉字6800多个,成了第一部汉字电码本,名为《电报新书》。后由我国的郑观应将其改成为《中国电报新》。这是中国最早的汉字电码本。中国人最早研制的电报机华侨商人王承荣从法国回国后,与福州的王斌研制出我国第一台电报机,并呈请政府自办电报。清政府拒不采纳。   应用   中文电码可用作电脑里的中文输入法,但因中文电码是“无理码”,记忆困难,一般用户几乎无法熟练地掌握使用。   在香港,每个有中文姓名的市民的身份证上,均会在他的姓名下面,印有中文电码,外国人取得的入港签证亦有印上。在很多政府或商业机构的表格中,都会要求填写者填写他的中文电码,以便输入电脑。   美国签证申请表(DS-160表)中,要求申请人填写姓名的中文电码,一些生僻字没有对应的中文电码时,可用“0000”代替。   原理   中文电码表采用了四位阿拉伯数字作代号,从0001到9999按四位数顺序排列,用四位数字表示最多一万个汉字、字母和符号。汉字先按部首,后按笔划排列。字母和符号放到电码表的最尾。后来由于一万个汉字不足以应付户籍管理的要求,又有第二字面汉字的出现。在香港,两个字面都采用同一码,由输入员人手选择字面;在台湾,第二字面的汉字会在开首补上“1”字,变成5个数字的码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值