上传文件和提交textfield_会了GEO数据下载，来看看怎么上传吧

最新推荐文章于 2024-01-05 12:26:08 发布

weixin_39603327

最新推荐文章于 2024-01-05 12:26:08 发布

阅读量591

点赞数

文章标签：上传文件和提交textfield

本文链接：https://blog.csdn.net/weixin_39603327/article/details/111284075

版权

今天是生信星球陪你的第703天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

豆豆写于2020.8.12
第一次接触这个操作，下午跟着官网学习了下

果然，还是看官网的帮助文档最香~

1 注册NCBI GEO账号

先注册NCBI账号，在：https://www.ncbi.nlm.nih.gov/

然后注册GEO账号，在：https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上传的数据类型种类主要集中在芯片和高通量数据，比如芯片数据的四大主流：Affymetrix、Agilent、Nimblegen、Illumina，高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传

2 提交高通量测序数据须知

重点需要提交三部分：

实验总览(metadata spreadsheet)：参考样本

https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

处理过后的数据(processed data files)：需要注意

不可以提交中间过程的比对文件(如BAM、SAM、BED)，但如果结果只有这样的比对文件，可以写信给他们询问是否合格
一般来说，提交什么类型的数据取决于实验类型：
- 表达量相关的数据：例如 genes, transcripts, exons, miRNA等表达量，需要原始表达矩阵或标准化后的表达矩阵(例如 Cufflinks, Cuffdiff, DESeq, edgeR的结果文件)。可以每个样本一个文件，也可以使用一整个表达矩阵，但需要包含全部基因和全部样本的信息(不可以只用差异基因)
- ChIP-Seq数据：必须包含有关于peak丰度的文件(如WIG, bigWig, bedGraph)
所有处理过的文件描述都必须体现在metadata文件中
如果提交了WIG, bedGraph, GFF, GTF文件，格式需要参考：UCSC file format FAQ

原始数据(raw data files)： GEO的原始数据也是会提交给SRA

必须是包含reads、质量值的原始fastq格式，不符合要求的数据会直接从GEO系统中删除
如果测序数据使用了barcode(例如10x Genomics, Drop-Seq, InDrops的数据)，可以提交不经过拆分的multiplexed files；对于其他多路复用(Multiplexed)的数据来说，必须要先经过demultiplex操作，将样本分开
PE测序数据：一般每个run会产生两个数据(特殊情况下，每个run中的序列和质量值文件是分开的，也就是产生了4个文件)
MD5Sum：推荐使用MD5验证数据，方法是：
- Unix: md5sum
- OS X: md5
- Windows: 需要用某些应用程序(如winmd5free)
关于数据压缩：为了加快传输，可以适当将数据压缩，但不强求。可以使用gzip、bzip2(后缀是.gz或.bz2) ，但不要压缩二进制文件(如BAM、bigWig、bigBed)，也不要上传ZIP文件

3 GEO接受的数据与不可接受的数据

GEO可接受的

基因表达、基因调控、表观以及其他功能基因组学研究，例如

mRNA profiling, RNA-seq (example)
small RNA profiling, miRNA-seq (example)
ChIP-Seq (example)
HiC-seq (example)
methyl-seq, bisulfite-seq (example)

GEO不可接受的

需要权限访问的人类数据：可以提交给dbGaP and controlled access SRA
转录本组装：可以提交给 SRA 以及 Transcriptome Shotgun Assembly Database)
全基因组测序：可以提交给SRA and WGS
宏基因组测序：可以提交给SRA
重测序以及变异相关研究：可以提交给SRA 或合适的 variation resource
全外显子数据：可以提交给SRA

4 重头戏-实验总览(metadata spreadsheet)

参考样本：https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

总共包含7大块

4.1 SERIES

与文章相关的内容

标题(title)
摘要(summary)
实验设计(overall design)
参与者(contributor)：可以写多个
附件(supplementary file)

4.2 SAMPLES

与样本信息相关的内容

样本编号(Sample name)
样本名称(title)
样本来源(source name)
物种(organism)
样本描述(characteristics: strain、tissue、age、genotype、cell line、treatment)
与该样本相关的文件(molecule、processed data file 、raw file)

4.3 PROTOCOLS

样本的实验操作以及建库流程，简单描述即可

4.4 DATA PROCESSING PIPELINE

数据处理描述，比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量

4.5 PROCESSED DATA FILES

数据处理后的文件名称

file name
file type：除了raw count数据，其余可以统一写成abundance measurements
file checksum

4.6 RAW FILES

原始数据名称(file name)
文件类型(file type)：比如fastq
md5校验(file checksum)
测序仪器型号(instrument model)
单端or双端(single or paired-end)

4.7 PAIRED-END EXPERIMENTS

如果使用了双端测序数据，需要列出各自的名称

file name 1
file name 2

5 准备工作结束后，可以开始上传

上面的实验总览(metadata spreadsheet)、处理过后的数据(processed data files)、**原始数据(raw data files) ** 都准备好，就可以开始准备上传了

学习如何使用FileZilla进行上传

首先会看到自己的上传目录，一会将用到

然后设置FileZilla：

host (ftp-private.ncbi.nlm.nih.gov)
username (geoftp)
password (rebUzyi1)

此时会发生报错，忽略它

修改Remote site，然后回车连接：

最后就可以将本地数据上传到GEO指定位置了

Tips：为了避免FileZilla上传过程出现中断，可以设置断点续传

6 最后，提醒GEO数据上传完成

并且会提示再核实一遍信息，没有问题的话5个工作日内就会进行审核

初学生信，很荣幸带你迈出第一步

?生信星球 ?~ 一个不拽术语、通俗易懂的生信知识平台

weixin_39603327

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
上传文件和提交textfield_会了GEO数据下载，来看看怎么上传吧

今天是生信星球陪你的第703天大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~ 就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~ 这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！豆豆写于2020.8.12第一次接触这个操作，下午跟着官网学习了下果然，还是看官网的帮助文档最香~1 注册NCBI GEO账号先注册NCBI账号，在：...
复制链接

扫一扫