RNA-seq测序数据(reads)提交NCBI

RNA-seq测序数据(reads)提交NCBI  

RNA-seq的测序数据要向NCBI提交,这里简单总结一下。原始的测序数据(reads) 数据要提交到SRA. RNA-seq的拼接结果应该提交到TSA库,TSA全称TranscriptomeShotgun Assembly Sequence Database,TSA isan archive of computationally assembled sequences from primarydata such as ESTs, traces and NextGeneration Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列(reads)提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N

提交流程

  • NCBI注册,获取注册账号,登录
  • 注册BioProject,获得一个编号 (这个编号,当产生一个new submission网页时,网页上有一个链接,即要求先产生一个BioProject的编号,点那个链接后,按要求填写即可  )
  • 将Rawreads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码(用LINUX下面的命令:md5sumMunro1_1.fq 
    就会生成 a13bfb4cab5ea40fd969c82a85564a4e checksums) Munro1_1.fq)创建好后,在你创建的页面下方会有相应的FTP和密码产生,这时,你可以用一些FTP工具(FileZilla_3.5.3_win32-setup.exe,这个是开源的,GOOGLE一下,自己去下载)向NCBI上传数据了。当然你也可以给NCBI发邮件告知一下,也可以不发。
  • 需要注意的是,在全部操作完成后,会有一个accessionnumber的登录号(SRR....,或者SRA....,)这个登录号一定要记住,这是要写在文章中的
  • 使用Sequin或者tbl2asn准备提交的文件,需要用到的测序组装后的数据(fasta格式)、BioProject编号、SRR接收号、单位信息、样本信息等
  • 将注释好的文件压缩通过GenomesMacroSend提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbi
  • OK,等待回复,有问题解决问题,没有问题收纳接收号。

注意事项

  • window下TSA的注释
    开始在window下(win 764bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10万的级别。最后还不得不改用tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是瞬间的事情。
  • tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息,比如[tech=TSA][SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例:
tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t
  • 关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。
没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

参考

http://www.ncbi.nlm.nih.gov/books/NBK47532/
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值