阅读文献并下载原始测序数据

最新推荐文章于 2024-09-24 17:45:20 发布

星晨路人

最新推荐文章于 2024-09-24 17:45:20 发布

阅读量789

点赞数 6

分类专栏：数据下载文章标签：学习方法

本文链接：https://blog.csdn.net/weixin_43547588/article/details/140134415

版权

数据下载专栏收录该内容

2 篇文章

订阅专栏

从头学习生信：感谢建明老师教程：

阅读文献并下载原始测序数据之helicos转录组数据 | 生信菜鸟团 (bio-info-trainee.com)

阅读文献并下载原始测序数据之helicos转录组数据

阅读pdf文献，并找到原始数据搜索关键词。
根据关键词在NCBI的SRA板块搜索找到其下载地址
根据下载地址写批处理批量下载所有原始测序数据
用NCBI提供的工具解压SRR数据，还原成fastq格式reads

正文

一、阅读pdf文献，并找到原始数据搜索关键词

tmp164

可以看到它的下载索引是SRP003040，阅读文献可知其包含4种细胞的6种处理方式的转录组数据

二、根据关键词在NCBI的SRA板块搜索找到其下载地址

三、根据下载地址写批处理批量下载所有原始测序数据

解析SRA地址可知从SRR133571.sra到SRR133639.sra，共69个文件

将SRR整理到文件id中

批处理代码如下：

while read id
do
echo $id
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR133/$id/$id.sra
done <$1

下载之后共14G的数据

tmp460

四、用NCBI提供的工具解压SRR数据，还原成fastq格式reads

也是批处理进行解压，代码如下

for i in *sra
do
/home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 $i
Done

解压后共216G的数据，都是fastq格式的单端50bp的数据。

This entry was posted in 基础数据库 by ulwvfje. Bookmark the permalink.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

星晨路人

关注关注

6
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

公共数据库NCBI下载转录组数据

hgz2020的博客

08-20

3122

转录组数据的下载

测序数据处理 —— 数据下载

dxs18459111694的博客

05-15

685

如果是我们自己测的数据，一般公司提供的文件是压缩后的数据，后缀为fastq.gz或fq.gz。但如果我们想要使用别人上传到SRA或EBI数据库中的测序数据，则需要使用专门的下载软件把这些数据下载到本地。

参与评论您还未登录，请先登录后发表或查看评论

下载测序数据那些事儿（一）

最新发布

生信学习

09-24

1056

最近在下载（分析）公共数据，无法避免的从 NCBI SRA 数据库下载已发表的“”优质“”数据。曾经一直以为，数据下载就是小case，直到我因为下载数据，折腾了几天……所以，聊一下目前下载拆分单细胞转录组测序数据踩过的SHIT。希望能为后来者提供一些参考😐。

【生信笔记】文献原始数据下载

Twinkle-star

03-05

1113

从SRA Run Selector下载所有样本SRR号（SRR_Acc_List.txt）。在文章中找到获取原始数据的相关描述，访问相应的数据库进行下载（如下图所示）。1）在ENA数据库搜索数据号，下载包含aspera链接的文件。这种方式下载的数据格式为.sra，需要转为.fastq。这种方式可以直接下载.fastq文件。2）简单处理链接文件并下载数据。

微生物组学大数据：如何挖掘与利用？

刘永鑫的博客——宏基因组公众号

04-24

1322

本文转自肠道产业，点我阅读原文，有修改这是《肠道产业》第 583 篇文章编者按：随着二代测序技术的成熟，微生物组领域蓬勃发展，并产生了大量数据，近年来研究所涉及的样本量和测序数据量更是快速...

NCBI上测序数据的下载

weixin_55372631的博客

05-12

1508

在生信分析中，由于论文中提供的数据有限，很多时候需要自己下载论文中的测序数据重新进行分析，从而得到自己想要的数据。而论文中的作者往往会把测序数据上传到NCBI中。因此学会如何从NCBI下载测序数据非常重要。

送书 | 哈佛大学单细胞课程：笔记汇总前篇

悟道西方

06-17

2237

经典赏析NGS系列文章包括NGS基础、转录组分析（Nature重磅综述|关于RNA-seq你想知道的全在这）、ChIP-seq分析（ChIP-seq基本分析流程）、单细胞测序分析(...

文献速读｜5分的生信+免疫组化：单细胞测序转录组联合bulk转录组肿瘤预后模型

Senoh的博客

08-31

1085

bulk-seq数据和单细胞数据的联合分析

weixin_53637133的博客

04-22

1852

bulk-seq数据和单细胞数据的联合分析

下载sra原始数据（包含储存在sra-sos的数据）

weixin_43745169的博客

06-22

1万+

对于一个做生信分析的学生，从NCBI上下载原始的测序文件是一项基本技能。 sra文件可以理解为是fastq的压缩文件。sra文件可以通过SRA Toolkit软件包下载。但是实际上，我尝试了无数次，aspera也装了，但都不能下载。但是sra toolkit的软件包还是要装的，因为之后需要用其中的fastq-dump把sra转换成fastq文件。获取想要的data的SRR号发表的文章后面都是......

文献RNA-seq复现第1期——文献中mRNA测序数据的获取

qq_53971833的博客

08-25

2116

从文献中获取mRNA测序数据

（二）外显子组数据分析之原始数据sra数据下载

aganlala的博客

06-16

1286

##数据准备数据来源文献：Reliability of Whole-Exome Sequencing for Assessing Intratumor Genetic Heterogeneity ##根据文章内容查找原文数据在哪里？The accession number for the raw data from WES and AmpliSeq sequences reported in this paper is SRA: SRP070662. ##于是打开NCBI ...

三代测序数据挖掘特定功能基因--之pacbio测序数据挖掘--纳米孔测序、GenoCare等二代、三代测序--挖掘特定功能基因

热门推荐

cory010的博客

06-28

10万+

从宏基因组测序数据中挖掘特定功能基因--生物信息学； Pfam功能批注、信号肽预测、blastp、CLEAN分析等；

二代测序下机数据的数据处理

baidu_41733076的博客

02-25

5513

本人接触过多家从事人类基因组的二代测序公司，包括肿瘤、全外遗传病和健康人全外测序体检，很多公司的数据处理和报告解读都存在一定的问题，这个系列就作为本人在人类基因组领域的解读和分享。目前很多公司都在使用大体的流程如下： 1）原始的下机数据fastq文件；2）读长匹配参考基因组形成BAM文件；3）GATK和/或Samtools工具call出变异；4）Annovar工具对变异做出注释；5）变异进行过滤；6）过滤后的变异进行判读，医学解读等，最后出具报告。这是一个行业内主要使用的流程，各个环节都容易出

单细胞RNA测序（scRNA-seq）理解Seurat对象存储信息含义和基本操作

LittleComputerRobot的博客

06-12

2808

Seurat对象的构建、访问和数据提取等操作，本文对Seurat对象的结构进行深入解读。

bulk RNA-Seq （2）比对到参考基因组

生物信息学方面的专题分享

02-05

939

上一篇推文讲了bulk RNA-Seq 的数据清洗部分，接下来就是将清洗后的数据比对到参考基因组上（有参）。如果没有参考基因组，那么就需要我们自己去组装基因组了。

单细胞RNA-seq分析

努力努力再努力的博客

01-15

3万+

一、单细胞single cell RNA-seq简介 1、Bulk RNA-seq(大量RNA-seq) Measures the average expression level for each gene across a large population of input cells Useful for quantifying expression signatures from ens...

【一只羊做生信】bulk普通转录组上游分析一文搞定

jianyangmaodemie的博客

03-14

2949

转录组是指。

【TOP生物信息】使用SingleR注释细胞类型

TOP生物信息

05-13

3616

SingleR最早发表在2019年Nature Immunology杂志的一篇文章上，文章题目为"Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage"。截止至2023年3月10日，引用量已经达到了947。SingleR的基本原理是利用已知类型细胞的基因表达谱和单个细胞的基因表达谱的相关性进行细胞类型鉴定。

怎样进行测序原始数据处理

03-26

测序原始数据处理可以分为以下几个步骤： 1. 数据质量控制：通过对原始数据进行质量控制，去除低质量序列以及可能存在的污染序列等。常用的质量控制工具包括Trimmomatic、fastp等。 2. 读长或read的去除或截断：对于某些数据，可能存在较长或较短的read或reads，可以根据实验需要选择合适的策略将其去除或截断。 3. 双端数据合并和拆分：双端测序数据需要将两个端的数据合并，以便进行一些组装和分析；而有些分析需要用到单个端的数据，此时需要将双端数据分离。常用的数据处理工具包括Flash、PEAR、fqtools、fastq-multx等。 4. 数据格式转换：根据实验需要，将测序数据转换为不同的格式，如不同的FASTQ格式或SAM/BAM格式。常用的工具有samtools、bedtools等。 5. 处理重复序列：某些序列可能存在PCR重复或者在不同的样本中出现，需要去除这些序列以减轻后续分析的影响。常用的工具为cd-hit、PRINSEQ等。 6. 去除宿主序列和参考序列：某些实验可能需要考虑宿主污染或者之前的文献报道中可能存在的参考序列，可以根据实验需要选择相应的工具去除。 7. 组装：对于一些无参考基因组的数据，需要进行组装，常用的组装工具包括SPAdes、SOAPdenovo2、Trinity等。 8. 数据质量评估：最后，需要对数据进行质量评估，检查数据处理的结果是否符合预期。常用的工具有fastQC等。在具体操作中，可以根据实验需求选择相应的工具和流程进行测序原始数据处理。