阅读文献并下载原始测序数据

从头学习生信:感谢建明老师教程:

阅读文献并下载原始测序数据之helicos转录组数据 | 生信菜鸟团 (bio-info-trainee.com)

阅读文献并下载原始测序数据之helicos转录组数据

目录

  1. 阅读pdf文献,并找到原始数据搜索关键词。
  2. 根据关键词在NCBI的SRA板块搜索找到其下载地址
  3. 根据下载地址写批处理批量下载所有原始测序数据
  4. 用NCBI提供的工具解压SRR数据,还原成fastq格式reads

正文

一、阅读pdf文献,并找到原始数据搜索关键词

tmp164

可以看到它的下载索引是SRP003040,阅读文献可知其包含4种细胞的6种处理方式的转录组数据

二、根据关键词在NCBI的SRA板块搜索找到其下载地址

 三、  根据下载地址写批处理批量下载所有原始测序数据

解析SRA地址可知从SRR133571.sra到SRR133639.sra,共69个文件

将SRR整理到文件id中

批处理代码如下:

  • while read id
  • do
  • echo $id
  • wget  ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR133/$id/$id.sra
  • done <$1

下载之后共14G的数据

tmp460

 四、用NCBI提供的工具解压SRR数据,还原成fastq格式reads

也是批处理进行解压,代码如下

  • for i in *sra
  • do
  • /home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 $i
  • Done

解压后共216G的数据,都是fastq格式的单端50bp的数据。

This entry was posted in 基础数据库 by ulwvfje. Bookmark the permalink.

测序原始数据处理可以分为以下几个步骤: 1. 数据质量控制:通过对原始数据进行质量控制,去除低质量序列以及可能存在的污染序列等。常用的质量控制工具包括Trimmomatic、fastp等。 2. 读长或read的去除或截断:对于某些数据,可能存在较长或较短的read或reads,可以根据实验需要选择合适的策略将其去除或截断。 3. 双端数据和拆分:双端测序数据需要将两个端的数据,以便进行一些装和分析;而有些分析需要用到单个端的数据,此时需要将双端数据分离。常用的数据处理工具包括Flash、PEAR、fqtools、fastq-multx等。 4. 数据格式转换:根据实验需要,将测序数据转换为不同的格式,如不同的FASTQ格式或SAM/BAM格式。常用的工具有samtools、bedtools等。 5. 处理重复序列:某些序列可能存在PCR重复或者在不同的样本中出现,需要去除这些序列以减轻后续分析的影响。常用的工具为cd-hit、PRINSEQ等。 6. 去除宿主序列和参考序列:某些实验可能需要考虑宿主污染或者之前的文献报道中可能存在的参考序列,可以根据实验需要选择相应的工具去除。 7. 装:对于一些无参考基因数据,需要进行装,常用的装工具包括SPAdes、SOAPdenovo2、Trinity等。 8. 数据质量评估:最后,需要对数据进行质量评估,检查数据处理的结果是否符合预期。常用的工具有fastQC等。 在具体操作中,可以根据实验需求选择相应的工具和流程进行测序原始数据处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值