上传文件和提交textfield_会了GEO数据下载,来看看怎么上传吧

dec49525057d09669831b75e32ed1a7d.png77f588c9c14bc67d5f1a0102f61a0a65.png 今天是生信星球陪你的第703天dec49525057d09669831b75e32ed1a7d.png


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

豆豆写于2020.8.12
第一次接触这个操作,下午跟着官网学习了下

果然,还是看官网的帮助文档最香~

1 注册NCBI GEO账号

先注册NCBI账号,在:https://www.ncbi.nlm.nih.gov/

然后注册GEO账号,在:https://www.ncbi.nlm.nih.gov/geo/submitter/

f870831c5a5bc3e059665174607ce87c.png

GEO可上传的数据类型种类主要集中在芯片和高通量数据,比如芯片数据的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传

2 提交高通量测序数据须知

2d5543413a6bbe6017006ab3c61fda95.png

重点需要提交三部分:

实验总览(metadata spreadsheet):参考样本 

https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

处理过后的数据(processed data files):需要注意

  • 不可以提交中间过程的比对文件(如BAM、SAM、BED),但如果结果只有这样的比对文件,可以写信给他们询问是否合格

  • 一般来说,提交什么类型的数据取决于实验类型:

    • 表达量相关的数据:例如 genes, transcripts, exons, miRNA等表达量,需要原始表达矩阵 或 标准化后的表达矩阵(例如 Cufflinks, Cuffdiff, DESeq, edgeR的结果文件)。可以每个样本一个文件,也可以使用一整个表达矩阵,但需要包含全部基因和全部样本的信息(不可以只用差异基因)

    • ChIP-Seq数据:必须包含有关于peak丰度的文件(如WIG, bigWig, bedGraph)

  • 所有处理过的文件描述都必须体现在metadata文件中

  • 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要参考:UCSC file format FAQ

原始数据(raw data files) GEO的原始数据也是会提交给SRA

  • 必须是包含reads、质量值的原始fastq格式,不符合要求的数据会直接从GEO系统中删除

  • 如果测序数据使用了barcode(例如10x Genomics, Drop-Seq, InDrops的数据),可以提交不经过拆分的multiplexed files;对于其他多路复用(Multiplexed)的数据来说,必须要先经过demultiplex操作,将样本分开

  • PE测序数据:一般每个run会产生两个数据(特殊情况下,每个run中的序列和质量值文件是分开的,也就是产生了4个文件)

  • MD5Sum:推荐使用MD5验证数据,方法是:

    • Unix: md5sum

    • OS X: md5

    • Windows: 需要用某些应用程序(如winmd5free)

  • 关于数据压缩:为了加快传输,可以适当将数据压缩,但不强求。可以使用gzip、bzip2(后缀是.gz.bz2) ,但不要压缩二进制文件(如BAM、bigWig、bigBed),也不要上传ZIP文件

3 GEO接受的数据与不可接受的数据

GEO可接受的

基因表达、基因调控、表观以及其他功能基因组学研究,例如

  • mRNA profiling, RNA-seq (example)

  • small RNA profiling, miRNA-seq (example)

  • ChIP-Seq (example)

  • HiC-seq (example)

  • methyl-seq, bisulfite-seq (example)

GEO不可接受的
  • 需要权限访问的人类数据:可以提交给dbGaP and controlled access SRA

  • 转录本组装:可以提交给 SRA 以及 Transcriptome Shotgun Assembly Database)

  • 全基因组测序:可以提交给SRA and WGS

  • 宏基因组测序:可以提交给SRA

  • 重测序以及变异相关研究:可以提交给SRA 或 合适的 variation resource

  • 全外显子数据:可以提交给SRA

4 重头戏-实验总览(metadata spreadsheet)

参考样本:https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

5f2051783aeaa86646897b50459ea4ef.png
总共包含7大块
4.1 SERIES

与文章相关的内容

  • 标题(title)

  • 摘要(summary)

  • 实验设计(overall  design)

  • 参与者(contributor):可以写多个

  • 附件(supplementary  file)

9d50a2d80a73f38d7ff05a9b349460a6.png
4.2 SAMPLES

与样本信息相关的内容

  • 样本编号(Sample  name)

  • 样本名称(title)

  • 样本来源(source name)

  • 物种(organism)

  • 样本描述(characteristics:  strain、tissue、age、genotype、cell line、treatment)

  • 与该样本相关的文件(molecule、processed  data file 、raw file)

f5b2db00ea8ff19c816babe05e0552c1.png
4.3 PROTOCOLS

样本的实验操作以及建库流程,简单描述即可

17b4e99436db050953745e2dbc3fecdc.png
4.4 DATA PROCESSING PIPELINE

数据处理描述,比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量

ac1e956ce6ea1444d8685cf3fd70fcc2.png
4.5 PROCESSED DATA FILES

数据处理后的文件名称

  • file name

  • file type:除了raw count数据,其余可以统一写成abundance measurements

  • file  checksum

9539e83aae7f1b5ecccd39acd8307012.png
4.6 RAW FILES
  • 原始数据名称(file name)

  • 文件类型(file type):比如fastq

  • md5校验(file  checksum)

  • 测序仪器型号(instrument  model)

  • 单端or双端(single  or paired-end)

634d00b984667a767261f09236fcb872.png
4.7 PAIRED-END EXPERIMENTS

如果使用了双端测序数据,需要列出各自的名称

  • file  name 1

  • file  name 2

5 准备工作结束后,可以开始上传

上面的实验总览(metadata spreadsheet)处理过后的数据(processed data files)、**原始数据(raw data files) ** 都准备好,就可以开始准备上传了

ce7f1efcb93a5f9efbd883a2c2bcbac6.png
学习如何使用FileZilla进行上传

首先会看到自己的上传目录,一会将用到

bf6197b0c1687733329785d3601981f5.png

然后设置FileZilla:

  • host (ftp-private.ncbi.nlm.nih.gov)

  • username (geoftp)

  • password (rebUzyi1)

此时会发生报错,忽略它

22e7079dac7c7a26974ea3b59e0db81b.png

修改Remote site,然后回车连接:

ce31e69f290ab9a8251770352d7169d9.png

最后就可以将本地数据上传到GEO指定位置了

Tips:为了避免FileZilla上传过程出现中断,可以设置断点续传

df5b4e678733b48586b965e7f1914e0c.png

6 最后,提醒GEO数据上传完成

bd8d96a227a2b125093378f3214a54cf.png

并且会提示再核实一遍信息,没有问题的话5个工作日内就会进行审核


?

初学生信,很荣幸带你迈出第一步

?生信星球 ?一个不拽术语、通俗易懂的生信知识平台

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值