RNA-seq测序数据(reads)提交NCBI

RNA-seq测序数据(reads)提交NCBI  

RNA-seq的测序数据要向NCBI提交,这里简单总结一下。原始的测序数据(reads) 数据要提交到SRA. RNA-seq的拼接结果应该提交到TSA库,TSA全称TranscriptomeShotgun Assembly Sequence Database,TSA isan archive of computationally assembled sequences from primarydata such as ESTs, traces and NextGeneration Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列(reads)提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N

提交流程

  • NCBI注册,获取注册账号,登录
  • 注册BioProject,获得一个编号 (这个编号,当产生一个new submission网页时,网页上有一个链接,即要求先产生一个BioProject的编号,点那个链接后,按要求填写即可  )
  • 将Rawreads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码(用LINUX下面的命令:md5sumMunro1_1.fq 
    就会生成 a13bfb4cab5ea40fd969c82a85564a4e checksums) Munro1_1.fq)创建好后,在你创建的页面下方会有相应的FTP和密码产生,这时,你可以用一些FTP工具(FileZilla_3.5.3_win32-setup.exe,这个是开源的,GOOGLE一下,自己去下载)向NCBI上传数据了。当然你也可以给NCBI发邮件告知一下,也可以不发。
  • 需要注意的是,在全部操作完成后,会有一个accessionnumber的登录号(SRR....,或者SRA....,)这个登录号一定要记住,这是要写在文章中的
  • 使用Sequin或者tbl2asn准备提交的文件,需要用到的测序组装后的数据(fasta格式)、BioProject编号、SRR接收号、单位信息、样本信息等
  • 将注释好的文件压缩通过GenomesMacroSend提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbi
  • OK,等待回复,有问题解决问题,没有问题收纳接收号。

注意事项

  • window下TSA的注释
    开始在window下(win 764bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10万的级别。最后还不得不改用tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是瞬间的事情。
  • tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息,比如[tech=TSA][SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例:
tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t
  • 关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。
没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

参考

http://www.ncbi.nlm.nih.gov/books/NBK47532/
### CentOS 镜像中 README 文件的作用 README 文件通常作为文档的一部分,在操作系统或软件包的分发过程中起到指导和说明的作用。对于 CentOS 的镜像而言,其 README 文件的主要意义在于提供关于该版本的操作系统的关键信息以及安装指南。 #### 1. 提供版本信息 README 文件会明确指出当前镜像是哪个具体版本的 CentOS,例如 `CentOS Linux release 7.9.2009 (Core)`[^1]。这有助于用户确认所下载的是正确的发行版,并了解与其兼容的硬件和软件环境。 #### 2. 描述安装前准备事项 在实际部署之前,用户可能需要完成一些必要的准备工作,比如安装工具 Git 或者其他依赖项。这些内容往往会在 README 中有所提及,帮助新手快速上手。 #### 3. 解决常见问题 针对可能出现的问题,如文件上传验证通过后的反馈机制——返回文件名表示成功[^2];或者如何正确配置服务端口映射等复杂场景下的解决方案也可能被记录下来以便查阅。 #### 4. 列举第三方库源地址 有时为了扩展功能,官方文档还会给出获取额外资源的方法论实例:“`wget http://downloads.sourceforge.net/tcl/tcl8.6.1-src.tar.gz`” 就是用来示范怎样从外部站点拉取所需组件的例子之一[^3]。 #### 5. 展示高级设置教程 除了基本操作外,更深入的技术细节也会包含其中,例如为了让 NVM 成为全局变量而修改特定路径下的脚本文件 `/etc/profile.d/nvm.sh` [^4] ,或者是利用 FTP 协议传输大容量数据时推荐采用 Binary Mode 来保持文件完整性[^5]。 综上所述,README 不仅是一个简单的介绍性文本,更是连接开发者与最终用户的桥梁,它承载着丰富的背景资料和技术支持,使得整个安装过程更加顺畅高效。 ```bash # 示例命令展示如何查看本地是否存在类似的 readme 文档 ls /path/to/your/downloaded/image/*.txt | grep -i "readme" cat /path/to/found/readme.txt ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值