数据上传需要提交各种类型的数据、表格(Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及)和资料,过程比较繁琐。之前有出过推文介绍测序数据上传到哪-测序文章数据上传找哪里,里面不仅介绍了windows系统的上传方法,也提供了linux下lftp上传的上传脚本。原文篇幅有限,现整合一份详细的数据上传指南,每一步都有说明,一看就会,再也不用担心数据上传。
GEO数据库全称GENE EXPRESSION OMNIBUS
,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据(NGS基础 - 高通量测序原理)。除SRA数据库之外(原始数据极速上传NCBI SRA教程),GEO数据库也是目前文章投递数据上传的数据库之一。以下主要介绍RNA-seq (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))和ChIP-seq(ChIP-seq基本分析流程)的上传流程。
1. 注册账号
首先需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/
)(生信软件系列 - NCBI使用),GEO账号,如果已经有账号,可以直接点击登录。
-
https://www.ncbi.nlm.nih.gov/geo/info/submission.html
2. 数据准备
选择需要上传的高通量数据(Illumina测序仪比较和各种测序应用模式图,助力了解高通量测序)。
需要上传的数据有三种。
Metadata spreadsheet
该文件是关于整个研究中样本和实验的相关信息。
SERIES:主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号(SRA号为选填,如果已经上传了SRA,则填上,否则空着即可)。此项需要填写的稍微详细一点,不然后面GEO可能发邮件要求补充abstract
。
SAMPLE:样品的详细信息,包括样品名称、来源、器官、年龄、表达值数据和原始数据等,如果是ChIP-seq,还需要提供相关的抗体信息。
PROTOCOLS:样品的实验和提取建库详细信息。
DATA PROCESSING PIPELINE:数据处理步骤,参考基因组(NGS基础 - 参考基因组和基因注释文件)详细信息。
PROCESSED DATA FILES:RNA-seq或者ChIP-seq等实验,通常需要提供一些额外的数据文件,比如基因表达量,基因信号文件和MD5值(MD5值:在Linux下可以使用命令md5sum filename
来获取;Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。)等。
RAW FILES:原始数据详细信息。
PAIRED-END EXPERIMENTS:双端测序序列详细信息,此项可不填。
Processed data files
经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG、bigWig、bedGraph等(生信分析过程中这些常见文件的格式以及查看方式你都知道吗?),不过由于是中间文件,该部分内容没有完全固定的格式。
Raw data files
原始数据一般采用FASTQ格式(NGS基础 - FASTQ格式解释和质量评估),另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/
)。
准备好所有数据之后选择Uploading your submission
,Transter Files
。
3. 数据上传
原始测序的fastq一般采用gzip压缩后上传。
在Linux系统,使用的是lftp
上传; Windows可以使用FileZilla(https://filezilla-project.org/)。
Linux下lftp上传
为了方便lftp上传,生信宝典总编写了一个bash脚本, 命名为GEO_upload.sh
,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。需要注意的是,注册GEO之后在上传页面的Uploading your submission
会提供FTP的地址、用户名和密码等信息。
GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/
为了简单方便,localdir
里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。
#!/bin/bash
#set -x
set -e
set -u
usage()
{
cat <<EOF >&2
${txtcyn}
Usage:
$0 options${txtrst}
${bldblu}Function${txtrst}:
This script is used to upload files to an FTP server using lftp.
${txtbld}OPTIONS${txtrst}:
-f FTP address ${bldred}[NECESSARY]${txtrst}
-u User name ${bldred}[NECESSARY]${txtrst}
-p Password ${bldred}[NECESSARY]${txtrst}
-t Target dir ${bldred}[NECESSARY]${txtrst}
-s Source dir ${bldred}[NECESSARY]${txtrst}
EOF
}
ftp=
user=
passwd=
target=
source_dir=
while getopts "hf:u:p:t:s:" OPTION
do
case $OPTION in
h)
usage
exit 1
;;
f)
ftp=$OPTARG
;;
u)
user=$OPTARG
;;
p)
passwd=$OPTARG
;;
t)
target=$OPTARG
;;
s)
source_dir=$OPTARG
;;
?)
usage
exit 1
;;
esac
done
if [ -z $ftp ]; then
usage
exit 1
fi
cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END
lftp -f lftp.script
Filezilla上传
打开FileZilla,主机(H) 框填写FTP地址,下图中的密码是rebUzyi1(此项可能不定期更新),具体根据自己接受到的信息填写。端口号可不填,全部填好后,点击快速连接按钮。
-
连接成功后,在远程站点下的文件名展示中创建自己的文件,例如ABC,将本地站点中需要上传的数据拖入右下角的方框内。
-
快速连接后,也可能显示“错误: 读取目录列表失败”,此时可忽略该项,直接在远程站点输入数据存放地址,然后回车,该地址会在选择
Uploading your submission\Transfer Files
后自动弹出。然后同样将本地站点中需要上传的数据拖入FileZilla右下角的方框内即可。
注意:使用FileZilla上传要注意进行相关设置,不然会一直中断,导致上传失败。
-
在菜单栏的
传输
—对已存在文件的默认操作
—选择上传-继续文件传输
即可实现断点续传。
-
设置
重连次数
:编辑
-设置
-最大重试次数 99; 登陆重试延时 200; 超时秒数 20
4. 通知GEO数据上传完成
数据上传完成后,需要通过以下方式通知GEO:
也可以给GEO(geo@ncbi.nlm.nih.gov
)发送邮件,邮件内容可以参考下方:
邮件主题:Submitting high-throughput sequence data to GEO
邮件正文:
Dear Sir/Madam,
Thanks for you kindly host such great public data resource.
We had finished the raw data uploading.
Please check according to the following information :
1. GEO account username: GEO帐号
2. Names of the directory and files deposited: ABC(存放数据的路径)
3. Public release date :数据释放日期,一般可以设置的比较远
4. Our raw files were named as follows: XXX.fq.gz
5. Our Processed data files were named as follows: XXX.txt and Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls
If there is any format or content problem, please do not hesitate to contact me.
Best,
Name
一般GEO第二天就会回复邮件,5个工作日以内会告知具体的GEO号。你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。