需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/)账号
用NCBI账号登入GEO,点击提交数据页面 Submitting data - GEO - NCBI
比如我要上传两个测序数据,分别是WGBS以及RNA-seq,
点击“Submit high-throughput sequencing”
弹出Submit high-throughput sequencing data to GEO页面
要求提交三种类型文件,
1. a metadata spreadsheet
2. processed data files
3. raw data files
metadata spreadsheet模板可以在下方下载,一个组学数据填写一个,我有两个组学数据,所以要填写RNA-seq以及WGBS,对应两个xlsx
processed data就是处理文件
比如RNA-seq为自己分析流程处理得到的rawcount.txt
比如WGBS为自己分析流程处理得到的sample.tab
raw data就是测序文件 sample1_R1.fastq.gz sample1_R2.fastq.gz
准备好上述文件后,就可以开始上传了,下方用过FTP上传,点击Transfer files
可以看到个人的上传空间目录为uploads/xxxxxxxx
点击step2 Transfer files 会显示
可以采用FileZilla上传,这里有个bug,一直没有连上,显示error
debug后,发现要在右边输入uploads/xxxxxxxx,才能进入目录
因为有两个组学数据,我分别建了两个文件夹,WGBS和RNA-seq,
把WGBS的原始数据fastq.gz,以及WGBSprocess数据上传到WGBS文件夹
把RNA-seq的原始数据fastq.gz,以及RNA-seqprocess数据上传到RNA-seq文件夹
当然,最后我没有用FileZilla,因为数据太大,FileZilla只有400-500kb/s,太慢了
Example Linux/Unix sessions里,提供了很多其他上传方法,我最后采用的是sftp,大概有3M/s,也算是可以接受
上传完毕后,点击upload metadata,把metadata上传,
因为我上传的是super series,按照要求
我提交了两次,日期都选在一年后公布,
首先选择WGBS文件夹,提交了WGBS的metadata数据,提交的时候在comment要求定义为一个super系列,并提供了大标题名
然后选择RNA-seq文件夹,提交了RNA-seq的metadata数据,提交的时候在comment要求定义为一个super系列,也提供了大标题名,
最后,
WGBSmetadata里的标题就是xxxxxxxxxx search[WGBS]
RNA-seqmetadata里的标题就是xxxxxxxxxx search[RNA-seq]
大标题就是xxxxxxxxxx search
最后会显示提交成功,然后大概5个工作日之内可以去查看
就可以查询到了super GEO 以及 两个 sub GEO