「有趣」基因组上除了ATCGN还能有什么字符

今天运行一个程序的时候,出现了一个让我惊讶的报错,

2013053-e3629a9290005486.png
报错

照理说,基因组上的序列应该只有ATCG,以及用来填充gap的N才对,为啥会出现Y呢?于是我用grep又去搜索了下,出现了更多让我看不懂的字符。

2013053-187c3f816cb4787d.png
离奇现象

为了一探究竟,我展开了一番搜索。由于这个现象不知道怎么描述,于是就随便试试,当然都没有成功。突然脑子闪过一个想法,这不会碱基命名中的用来表示哪些不好判断的序列呀,因为我想到在对基因型分型的时候,如果只能确定这个基因型不是AA,但是有可能是AB,BB,那么就会用另一个字母进行表示。

于是我想到了IUPAC命名法,最后我找到了下表

IUPAC nucleotide codeBase
AAdenine
CCytosine
GGuanine
T (or U)Thymine (or Uracil)
RA or G
YC or T
SG or C
WA or T
KG or T
MA or C
BC or G or T
DA or G or T
HA or C or T
VA or C or G
Nany base
. or -gap

解决了心中的一个疑问。那么下一个问题就是如何处理这些非ATCGN的字符呢?我当然使用最简单粗暴的方法,就是把RYSWKMBDHV全部替换成N

tr RYSWKMBDHVryswkmbdhv N < /data/reference/genome/TAIR10/Athaliana.fa  | sed -e 's/>CNN/>Chr/' -e 's/>ChrN/>ChrM/' -e 's/>ChrCN/>ChrCh/'  > r
ef/Athaliana.fa
# 由于把Chr也替换成CNN, 因此要替换回来
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值