Rosalind第34题:Error Correction in Reads

Problem

As is the case with point mutations, the most common type of sequencing error occurs when a single nucleotide from a read is interpreted incorrectly.

Given: A collection of up to 1000 reads of equal length (at most 50 bp) in FASTA format. Some of these reads were generated with a single-nucleotide error. For each read  in the dataset, one of the following applies:

  •  was correctly sequenced and appears in the dataset at least twice (possibly as a reverse complement);
  •  is incorrect, it appears in the dataset exactly once, and its Hamming distance is 1 with respect to exactly one correct read in the dataset (or its reverse complement).

Return: A list of all corrections in the form "[old read]->[new read]". (Each correction must be a single symbol substitution, and you may return the corrections in any order.)

点突变一样,当错误解读读物中的单个核苷酸时,会发生最常见的测序错误。

给出:FASTA格式最多收集1000个等长(最多50 bp)的等长段。这些读数中的一些是单核苷酸错误产生的。对于数据集中的每次读取,适用以下条件之一:

  • 已正确排序并至少两次出现在数据集中(可能是反向互补);
  • 不正确,它在数据集中只会出现一次,并且汉明距离相对于数据集中恰好一个正确读取的位置(或其反向补码)为1。

返回值:所有更正的列表,形式为“ [旧读]-> [新读]”。(每个更正必须是单个符号替换,并且您可以按任何顺序返回更正。)

 

Sample Dataset

>Rosalind_52
TCATC
>Rosalind_44
TTCAT
>Rosalind_68
TCATC
>Rosalind_28
TGAAA
>Rosalind_95
GAGGA
>Rosalind_66
TTTCA
>Rosalind_33
ATCAA
>Rosalind_21
TTGAT
>Rosalind_18
TTTCC

Sample Output

TTCAT->TTGAT
GAGGA->GATGA
TTTCC->TTTCA
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值