详解测多少数据量,几个G,多少reads,如何换算

测多少数据量?几个G?多少reads?如何换算?

我们看看权威的ENCODE对RNA-seq的测序深度是如何评价的:
Standards, Guidelines and Best Practices for RNA-Seq V1.0 (June 2011)

The ENCODE Consortium

Sequencing depth.

The amount of sequencing needed for a given sample is determined by the goals of the experiment and the nature of the RNA sample. Experiments whose purpose is to evaluate the similarity between the transcriptional profiles of two polyA+ samples may require only modest depths of sequencing (e.g. 30M pair-end reads of length > 30NT, of which 20-25M are mappable to the genome or known transcriptome, Experiments whose purpose is discovery of novel transcribed elements and strong quantification of known transcript isoforms requires more extensive sequencing.

The ability to detect reliably low copy number transcripts/isoforms depends upon the depth of sequencing and on a sufficiently complex library. For experiments from a typical mammalian tissue or in which sensitivity of detection is important, a minimum depth of 100-200 M 2 x 76 bp or longer reads is currently recommended.

[Specialized studies in which the prevalence of different RNAs has been intentionally altered (e.g. “normalizing” using DSN) as part of sample preparation need more than the read amounts (>30M paired end reads) used for simple comparison (see above). Reasons for this include:

(1) overamplification of inserts as a result of an additional round of PCR after DSN and

(2) much more broad coverage given the nature of A(-) and low abundance transcripts.

权威的话转换如下:

根据研究目的决定测序深度:

目的1:通过抓取polyA尾巴建库(只测那些带有polyA尾巴的基因,大多是蛋白编码基因),

寻找样品间基因转录谱的相似性,只需要30M reads,长度大于30nt即可,双端测序,其中20-25M能够回帖到已知转录组上。

目的2:要发现新的转录本,对已知isoform(同一基因由于不同的可变剪接方式形成多种isoform,勉强译为亚型)进行定量分析,

兼顾低表达量的转录本或isoform,就需要100-200M read,长度大于76bp,双端测序。

lncRNA-seq属于这一类型。

注:ENCODE测的是人和小鼠,其他物种不包括在此推荐范围内。

另外,miRNA测序,只需要10M read,每条read长50bp,单端测序。

ChIP-seq,需要20M read,每条read长50bp,单端测序。

销售只说多少G,不说reads数,如何把reads数换算成G呢?

这跟测序长度有关:

PE150或2*150,即 双端测序,每条read长度150bp。

150bp X 2端 X read数 = 数据量

例如,测50M read,150bp X 2端 X 50M read = 15000M = 15G

注:对于双端测序,一个RNA片段,即fragment,也叫read,会测出来2条序列。

SE50或1*50,即 单端测序,每条read长度50bp。

50bp X 1端 X read数 = 数据量

例如,测20M read,50bp X 1端 X 20M read = 1000M = 1G

再絮叨一句:这里的G是碱基数(Gbase,Gb),跟你看到的文件大小(gigabyte,GB)不是一回事哦~

测序公司给你的文件通常是压缩的fastq格式,里面有read ID号,有碱基,有每个碱基的质量。

经验多了看到文件大小就直到数据量够不够,跑一个FastQC或RSeQC就知道了。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您可以通过以下步骤下载转录组reads数据: 1. 确定您需要的转录组reads数据的来源。常见的来源包括NCBI Sequence Read Archive (SRA)、European Nucleotide Archive (ENA)、GenBank等。 2. 访问相应的数据库网站,比如NCBI SRA网站 (https://www.ncbi.nlm.nih.gov/sra/) 或 ENA网站 (https://www.ebi.ac.uk/ena)。 3. 在网站上使用关键词或项目名称搜索您需要的转录组reads数据。您可以使用过滤器来缩小搜索范围,比如物种、测序平台、测序类型等。 4. 找到符合您要求的数据集,并记录相关的访问号或样本号。 5. 如果您选择下载SRA格式的数据,您需要安装并使用SRA Toolkit来下载和处理数据。您可以从NCBI的SRA Toolkit网页 (https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/) 下载适合您操作系统的版本,并按照说明进行安装和配置。 6. 使用SRA Toolkit中的命令行工具,比如`prefetch`或`fastq-dump`,通过访问号或样本号来下载数据。具体的命令行参数可以在SRA Toolkit的文档中找到。 7. 如果您选择下载FASTQ格式的数据,您可以直接从数据库网站上下载压缩的FASTQ文件。一般来说,每个样本对应一个FASTQ文件,您可以选择下载所有的样本或者只选择您感兴趣的样本。 请注意,不同的数据库和数据集可能有不同的下载方式和使用条款,您可能需要事先注册账号或获取访问权限。此外,下载大规模的转录组reads数据可能需要较长的时间和大量的存储空间。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值