RNA-Seq 笔记 [3]

这周主要内容是学习转录组的比对,选择的软件为hisat2,该笔记仅供个人参考谨慎搬运代码

# hisat2 可以快速准确地将测序得到的 RNA 片段(reads)比对到参考基因组,从而确定这些RNA 片段在基因组上的精确位置,进一步可以用于基因表达量定量,剪接位点的检测等多种 RNA-Seq分析任务

#安装hisat2
conda install -c bioconda hisat2
#检查是否安装成功
hisat2 --help

① 建立索引

hisat2 需要一个 index 索引才能进行比对,hisat2 提供了一些 index,但很少,只有人类、小鼠等基因组的,我们研究梨的,所以就需要自己建立索引,使用的是DG参考基因组序列,前面已经下载好了,使用下列命令建立索引。

# 把下方的文件比对到索引上
-rw-rw-r-- 1 yinwen yinwen 2133867146 Jan 20 15:58 DG5_1_R1_val_1.fq.gz

#如何构建索引?查了不少资料解决了

# 技能树视频里面构建索引部分直接跳过了,走了一个小时弯路QAQ、
# 先把底下两个文件上传到我们的linux服务器,然后rename一下,尾缀是什么并不重要

# 重命名后运行如下代码,自己构建索引
hisat2-build dananguo_genome.fa genome

# 下面是走到一些弯路,从弯路里面提取点有用的

# 将fastq文件转化为fasta文件
wget http://hannonlab.cshl.edu/fastx_toolkit/fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
tar xjvf fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
fastx_toolkit --help
fastq_to_fasta -Q33 -i 输入.fq -o 输出.fa

# 索引构建完成后,出现 8 个以 ht2为拓展名的文件👇

(py2env) [yinwen@node hisat2]$ ls -l
total 765852
-rw-rw-r-- 1 yinwen yinwen 174481544 Jan 27 16:29 genome.1.ht2
-rw-rw-r-- 1 yinwen yinwen 127714808 Jan 27 16:29 genome.2.ht2
-rw-rw-r-- 1 yinwen yinwen       287 Jan 27 16:18 genome.3.ht2
-rw-rw-r-- 1 yinwen yinwen 127714802 Jan 27 16:18 genome.4.ht2
-rw-rw-r-- 1 yinwen yinwen 224243805 Jan 27 16:31 genome.5.ht2
-rw-rw-r-- 1 yinwen yinwen 130051792 Jan 27 16:31 genome.6.ht2
-rw-rw-r-- 1 yinwen yinwen        12 Jan 27 16:18 genome.7.ht2
-rw-rw-r-- 1 yinwen yinwen         8 Jan 27 16:18 genome.8.ht2

② 进行比对

# 注意-x 后跟索引文件,不加拓展名,保证 ht2 文件和 fa 文件的文件名一致即可
hisat2 -x genome -p 5 -1 /home/yinwen/clean/DG5_1_R1_val_1.fq -2 /home/yinwen/clean/DG5_1_R2_val_2.fq -S genome.sam
#运行后得到.sam文件

成功了!分析一下(成就感max)

① 总共有22937356个读取序列;

② 所有读取序列中 100.00%都成对存在;

③ 成对端序列中 24.64%的序列没有成功比对到基因组上;

④ 63.30%的序列只比对到了基因组上的一个位置;

⑤ 12.06%的序列比对到了基因组上的多个位置;

⑥ 对于没有成功比对的成对端序列,有 64.74%的序列不一致地(非正确配对的)比对到了基因组上一个位置;

⑦ 有的序列无法一致地或不一致地比对,这些序列占所有没有成功比对的成对端序列的 1992944对,它们一共包含3985888 个“pairs”序列;

⑧ 在这些“pairs”序列中:

  • 40.37%的序列没有比对到任何地方

  • 55.11%的序列比对到了基因组上的一个位置

  • 4.52%的序列比对到了基因组上的多个位置

整体上的比对成功率为 96.49%(满足比对率基本都85%甚至90%以上)

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值