小白记录——识别RNA编辑位点

碎碎念:我的心情down到了极点,为嘛不让我回去啊,求求了求求了疫情赶紧结束吧... 闲下来就会胡思乱想,忙一些反倒很充实,让任务压死我吧,我不想总是产生奇奇怪怪的想法压迫我的(猪猪)脑子...

目录

1 下载数据

2 数据处理

 

1 下载数据

①数据来源:主要从EMBL-EBI和GEO数据库资源里面下载有关宫颈癌的RNA-seq数据。

②工具:SRAToolkit。SRA Toolkit是NCBI官方提供的用于下载GEO以及SRA等数据库中数据的下载工具,借助于这个工具去下载原始的压缩格式的sra数据,然后再转换成fastq格式。

参考网站:https://www.jianshu.com/p/beb47b89c1d3 

·  关于安装SRAToolkit:

  1. 首先在https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 里面根据对应的系统下载对应的安装包,这里我使用的是windows10 64位系统,所以是sratoolkit.3.0.0-win64.zip安装包。
  2. 然后解压至目标位置。
  3. 最后将路径添加至系统环境变量中。这里不会添加可以参考:

win10如何将文件路径添加到环境变量中 - 卡饭网win10如何将文件路径添加到环境变量中icon-default.png?t=M85Bhttps://m.kafan.cn/A/7v5je14dng.html

·  关于下载sra数据: 

  1. 这里简单介绍一下powershell和cmd的区别:cmd是基于Windows上的命令行程序,它类似于微软的DOS操作系统,是windows专用的;powershell是基于面向对象的跨平台的命令行脚本环境,它比cmd应用的更广泛,可以调用.NET的功能。
  2. 单个下载:打开powershell,cd到\sratoolkit\bin ,运行prefetch.exe SRR5090641.sra(以SRR5090641的这个数据为例)
  3. 批量下载:打开powershell,cd到\sratoolkit\bin ,运行 prefetch.exe --option-file H:\数据\宫颈癌RNAseq\GSE150227\SRR_Acc_List.txt (SRR_Acc_List.txt是需要下载的样本号,比如SRR5090641)

·  关于sra转fastq数据:

  1. 单个转换:打开powershell,cd到\sratoolkit\bin ,运行 fastq-dump.exe --split-3 H:\数据\宫颈癌RNAseq\GSE113942\SRR7091815\SRR7091815.sra (以SRR7091815.sra为例)
  2. 批量转换:循环运行上面的语句就行。下面可做参考。--split-3这个参数很重要,如果是单端测序会生成一个fq压缩文件,如果是双端测序会生成两个fq压缩文件。

     我是在powershell里面运行的.sh文件。按理来说不行,所以我装了一个git。③数据展示: 

 ③数据展示:

 

 

 2 数据处理

①需要的工具:Ubuntu 或者 服务器

②关于Ubuntu以及相关依赖库的安装

· win10系统安装Ubuntu

Win10有内置的Ubuntu,打开微软商店,搜索关键字wsl 即可找到相关软件,这里我使用的是Ubuntu20.04.4版本。点击安装,按照它的操作步骤走就行。但是由于它默认安装在c盘,所以如果想换安装位置的话,可以参考博客:

Win10自定义路径位置安装WSL2 (Ubuntu 20.04) 并配置CUDA___XWH1999__的博客-CSDN博客_win10 wsl 安装位置

· 在Ubuntu中安装bwa和samtools

 见另一篇文章:在Ubuntu中安装bwa和samtools的问题汇总_liuyujiee的博客-CSDN博客

· 补充一个Ubuntu安装anaconda3

  1. 首先下载安装包:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D l我下载的是Anaconda3-2021.11-Linux-x86_64.sh
  2. 执行 bash Anaconda3-2021.11-Linux-x86_64.sh
  3. 按照说明一直回车就行。gedit ~/.bashrc 可以查看是否添加了环境变量。
  4. bwa比对和samtools建立索引,需要在py3环境下运行。虽然默认是py3,但是也可以单独创建一个环境,这里我的环境是py3_bwa。

③序列比对和建立索引 

bwa软件的作用是将序列比对到参考基因组上,在比对之前,首先需要对参考基因组建立索引。如果没有建立索引,就会出现[E::bwa_idx_load_from_disk] fail to locate the index files这个错误。

关于bwa和samtools的使用,可以参考:

https://www.jianshu.com/p/19f58a07e6f4

对sam/bam文件进行操作_qq_39306047的博客-CSDN博客_sam文件 sort

代码截图:

 

 ④识别RNA编辑位点

· 安装REDItools工具

1. 首先要创建一个py2的环境:conda create -n py27 python=2.7

2. 按照readme安装相关的包:

REDItools/README_1.md at master · BioinfoUNIBA/REDItools · GitHub

查看包的安装语句:

https://anaconda.org/

3. 需要安装下面的包:

pysam:conda install -c bioconda pysam=0.91.0

通过 python -c 'import pysam' 查看pysam有没有安装成功能不能成功导入

blat: conda install -c bioconda blat

samtools: conda install -c bioconda samtools

安装REDItools:(注意安装的路径)

git clone https://github.com/BioinfoUNIBA/REDItools

cd REDItools

python setup.py install

· 可以愉快地使用这个工具啦

代码:

conda activate py27

python ./REDItools/main/REDItoolKnown.py -i /mnt/h/数据/宫颈癌RNAseq/fq_sam_bam/SRR116812${i}.sort.sam -f /mnt/h/数据/宫颈癌RNAseq/genome.fa -l /mnt/h/数据/宫颈癌RNAseq/hg19_table.txt.gz -o /mnt/h/数据/宫颈癌RNAseq/output/GSE149763 -c 0 -q 0 -m 0 -v 2 -n 0

conda deactivate py27

 · 好像并不愉快😭,可能会遇到问题

 

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值