RNA-seq测序数据(reads)提交NCBI

最新推荐文章于 2024-12-14 19:07:07 发布

biubiuv

最新推荐文章于 2024-12-14 19:07:07 发布

阅读量1w

点赞数 3

分类专栏： bioinfo

bioinfo 专栏收录该内容

9 篇文章

订阅专栏

RNA-seq测序数据(reads)提交NCBI

RNA-seq的测序数据要向NCBI提交，这里简单总结一下。原始的测序数据(reads) 数据要提交到SRA. RNA-seq的拼接结果应该提交到TSA库，TSA全称TranscriptomeShotgun Assembly Sequence Database，TSA isan archive of computationally assembled sequences from primarydata such as ESTs, traces and NextGeneration Sequencing Technologies.

对于注释信息的要求

TSA数据提交前，首先需要将原始的序列(reads)提交到SRA数据库，与提交普通核酸、EST类似，TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample；提供拼接信息以及对于拼接过程的描述。

对于序列的要求

必须是原始的测序结果的拼接数据
需要去除载体或者测序引物
序列长度不能少于200bp
序列不能包括太多的N，少于10%或者小于14个N

提交流程

NCBI注册，获取注册账号，登录
注册BioProject，获得一个编号 (这个编号，当产生一个new submission网页时，网页上有一个链接，即要求先产生一个BioProject的编号，点那个链接后，按要求填写即可 )
将Rawreads提交到SRA，在SRA提交页面创建一个SRA提交，创建Sample，创建Experiment、在Experiment中创建RUN，需要提供测序平台、文件名、文件格式（Illumina_native、bam、fastq、srf)以及MD5验证码(用LINUX下面的命令：md5sumMunro1_1.fq
就会生成 a13bfb4cab5ea40fd969c82a85564a4e （checksums） Munro1_1.fq）创建好后，在你创建的页面下方会有相应的FTP和密码产生，这时，你可以用一些FTP工具(FileZilla_3.5.3_win32-setup.exe,这个是开源的，GOOGLE一下，自己去下载)向NCBI上传数据了。当然你也可以给NCBI发邮件告知一下，也可以不发。
需要注意的是，在全部操作完成后，会有一个accessionnumber的登录号(SRR....,或者SRA....,）这个登录号一定要记住，这是要写在文章中的
使用Sequin或者tbl2asn准备提交的文件，需要用到的测序组装后的数据（fasta格式）、BioProject编号、SRR接收号、单位信息、样本信息等
将注释好的文件压缩通过GenomesMacroSend提交，提交后会获得一个GDSub编号，将这些信息以及数据发布日期email给ncbi
OK，等待回复，有问题解决问题，没有问题收纳接收号。

注意事项

window下TSA的注释
开始在window下（win 764bit）使用sequin，总是序列加载后，开始填写注释信息时就没有响应，估计是卡在内存上，因为其需要将所有数据都加载到内存中，结果内存只增加到100多M就不动了，试了几次，每次都挺花时间的，最后还是失败了，sequin的主页上说适合于1万条以内的序列注释，NRS拼接的结果基本都是10万的级别。最后还不得不改用tbl2asn，虽然是命令行的，NCBI都提供了在线的模板、拼接信息生成CGI，但是序列多在dos下还是很慢，最后改在64位linux，几乎就是瞬间的事情。
tbl2asn的使用注意-y与-Y参数的差别，-y后面可以直接跟注释信息，-Y是指存放注释信息的文件，另外就是在fasta文件中，在序列的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息，比如[tech=TSA][SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例：

tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t

关于序列中的N，序列中的N必须少于14个，或许是NCBI处于质控的角度考虑制定的规则，但是如果使用两端测序，难免序列中有很多N来填补缺位，N的价值是及其有意义的，如果要提交必须将这些序列去掉或者拆开，从文章的角度却又是不妥的，挺为难的。

没了，算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

参考

http://www.ncbi.nlm.nih.gov/books/NBK47532/#SRA_Submission_Guid.5_Submitting_Data

http://www.ncbi.nlm.nih.gov/books/NBK47532/