超详细的GEO数据上传攻略,一看就会

数据上传需要提交各种类型的数据、表格(Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及)和资料,过程比较繁琐。之前有出过推文介绍测序数据上传到哪-测序文章数据上传找哪里,里面不仅介绍了windows系统的上传方法,也提供了linux下lftp上传的上传脚本。原文篇幅有限,现整合一份详细的数据上传指南,每一步都有说明,一看就会,再也不用担心数据上传。

GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据(NGS基础 - 高通量测序原理)。除SRA数据库之外(原始数据极速上传NCBI SRA教程),GEO数据库也是目前文章投递数据上传的数据库之一。以下主要介绍RNA-seq (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))和ChIP-seq(ChIP-seq基本分析流程)的上传流程。

1. 注册账号

首先需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/)(生信软件系列 - NCBI使用),GEO账号,如果已经有账号,可以直接点击登录。

  • https://www.ncbi.nlm.nih.gov/geo/info/submission.html

2. 数据准备

选择需要上传的高通量数据(Illumina测序仪比较和各种测序应用模式图,助力了解高通量测序)。

图片

需要上传的数据有三种。

Metadata spreadsheet

该文件是关于整个研究中样本和实验的相关信息。

SERIES:主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号(SRA号为选填,如果已经上传了SRA,则填上,否则空着即可)。此项需要填写的稍微详细一点,不然后面GEO可能发邮件要求补充abstract

图片

SAMPLE:样品的详细信息,包括样品名称、来源、器官、年龄、表达值数据和原始数据等,如果是ChIP-seq,还需要提供相关的抗体信息。

图片

PROTOCOLS:样品的实验和提取建库详细信息。

图片

DATA PROCESSING PIPELINE:数据处理步骤,参考基因组(NGS基础 - 参考基因组和基因注释文件)详细信息。

图片

PROCESSED DATA FILES:RNA-seq或者ChIP-seq等实验,通常需要提供一些额外的数据文件,比如基因表达量,基因信号文件和MD5值(MD5值:在Linux下可以使用命令md5sum filename来获取;Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。)等。

图片

RAW FILES:原始数据详细信息。

图片

PAIRED-END EXPERIMENTS:双端测序序列详细信息,此项可不填。

图片

Processed data files

经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG、bigWig、bedGraph等(生信分析过程中这些常见文件的格式以及查看方式你都知道吗?),不过由于是中间文件,该部分内容没有完全固定的格式。

Raw data files

原始数据一般采用FASTQ格式(NGS基础 - FASTQ格式解释和质量评估),另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。

准备好所有数据之后选择Uploading your submissionTranster Files

3. 数据上传

原始测序的fastq一般采用gzip压缩后上传。

在Linux系统,使用的是lftp上传; Windows可以使用FileZilla(https://filezilla-project.org/)。

Linux下lftp上传

为了方便lftp上传,生信宝典总编写了一个bash脚本, 命名为GEO_upload.sh,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。需要注意的是,注册GEO之后在上传页面的Uploading your submission会提供FTP的地址、用户名和密码等信息。

GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/

为了简单方便,localdir里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。

#!/bin/bash

#set -x
set -e
set -u

usage()
{
cat <<EOF >&2
${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to upload files to an FTP server using lftp.

${txtbld}OPTIONS${txtrst}:
    -f    FTP address ${bldred}[NECESSARY]${txtrst}
    -u    User name ${bldred}[NECESSARY]${txtrst}
    -p    Password ${bldred}[NECESSARY]${txtrst}
    -t    Target dir ${bldred}[NECESSARY]${txtrst}
    -s    Source dir ${bldred}[NECESSARY]${txtrst}    
EOF
}

ftp=
user=
passwd=
target=
source_dir=

while getopts "hf:u:p:t:s:" OPTION
do
    case $OPTION in
        h)
            usage
            exit 1
            ;;
        f)
            ftp=$OPTARG
            ;;
        u)
            user=$OPTARG
            ;;
        p)
            passwd=$OPTARG
            ;;
        t)
            target=$OPTARG
            ;;
        s)
            source_dir=$OPTARG
            ;;
        ?)
            usage
            exit 1
            ;;
    esac
done

if [ -z $ftp ]; then
    usage
    exit 1
fi

cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END

lftp -f lftp.script

Filezilla上传

打开FileZilla,主机(H) 框填写FTP地址,下图中的密码是rebUzyi1(此项可能不定期更新),具体根据自己接受到的信息填写。端口号可不填,全部填好后,点击快速连接按钮。

  • 连接成功后,在远程站点下的文件名展示中创建自己的文件,例如ABC,将本地站点中需要上传的数据拖入右下角的方框内。

图片

  • 快速连接后,也可能显示“错误: 读取目录列表失败”,此时可忽略该项,直接在远程站点输入数据存放地址,然后回车,该地址会在选择Uploading your submission\Transfer Files后自动弹出。然后同样将本地站点中需要上传的数据拖入FileZilla右下角的方框内即可。

图片

注意:使用FileZilla上传要注意进行相关设置,不然会一直中断,导致上传失败。

  • 在菜单栏的传输对已存在文件的默认操作—选择上传-继续文件传输即可实现断点续传。

图片

  • 设置重连次数编辑-设置-最大重试次数 99; 登陆重试延时 200; 超时秒数 20

图片

4. 通知GEO数据上传完成

数据上传完成后,需要通过以下方式通知GEO:

图片

也可以给GEO(geo@ncbi.nlm.nih.gov)发送邮件,邮件内容可以参考下方:

邮件主题:Submitting high-throughput sequence data to GEO

邮件正文:

Dear Sir/Madam, 

Thanks for you kindly host such great public data resource.

We had finished the raw data uploading.

Please check according to the following information :

1. GEO account username: GEO帐号

2. Names of the directory and files deposited: ABC(存放数据的路径)

3. Public release date :数据释放日期,一般可以设置的比较远

4. Our raw files were named as follows: XXX.fq.gz

5. Our Processed data files were named as follows: XXX.txt and Metadata spreadsheet were named as follows: Metadata_spreadsheet.xls

If there is any format or content problem,  please do not hesitate to contact me. 

Best, 

Name

一般GEO第二天就会回复邮件,5个工作日以内会告知具体的GEO号。你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值