碎碎念:我的心情down到了极点,为嘛不让我回去啊,求求了求求了疫情赶紧结束吧... 闲下来就会胡思乱想,忙一些反倒很充实,让任务压死我吧,我不想总是产生奇奇怪怪的想法压迫我的(猪猪)脑子...
目录
1 下载数据
①数据来源:主要从EMBL-EBI和GEO数据库资源里面下载有关宫颈癌的RNA-seq数据。
②工具:SRAToolkit。SRA Toolkit是NCBI官方提供的用于下载GEO以及SRA等数据库中数据的下载工具,借助于这个工具去下载原始的压缩格式的sra数据,然后再转换成fastq格式。
参考网站:https://www.jianshu.com/p/beb47b89c1d3
· 关于安装SRAToolkit:
- 首先在https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 里面根据对应的系统下载对应的安装包,这里我使用的是windows10 64位系统,所以是sratoolkit.3.0.0-win64.zip安装包。
- 然后解压至目标位置。
- 最后将路径添加至系统环境变量中。这里不会添加可以参考:
win10如何将文件路径添加到环境变量中 - 卡饭网win10如何将文件路径添加到环境变量中https://m.kafan.cn/A/7v5je14dng.html
· 关于下载sra数据:
- 这里简单介绍一下powershell和cmd的区别:cmd是基于Windows上的命令行程序,它类似于微软的DOS操作系统,是windows专用的;powershell是基于面向对象的跨平台的命令行脚本环境,它比cmd应用的更广泛,可以调用.NET的功能。
- 单个下载:打开powershell,cd到\sratoolkit\bin ,运行prefetch.exe SRR5090641.sra(以SRR5090641的这个数据为例)
- 批量下载:打开powershell,cd到\sratoolkit\bin ,运行 prefetch.exe --option-file H:\数据\宫颈癌RNAseq\GSE150227\SRR_Acc_List.txt (SRR_Acc_List.txt是需要下载的样本号,比如SRR5090641)
· 关于sra转fastq数据:
- 单个转换:打开powershell,cd到\sratoolkit\bin ,运行 fastq-dump.exe --split-3 H:\数据\宫颈癌RNAseq\GSE113942\SRR7091815\SRR7091815.sra (以SRR7091815.sra为例)
- 批量转换:循环运行上面的语句就行。下面可做参考。--split-3这个参数很重要,如果是单端测序会生成一个fq压缩文件,如果是双端测序会生成两个fq压缩文件。
我是在powershell里面运行的.sh文件。按理来说不行,所以我装了一个git。③数据展示:
③数据展示:
2 数据处理
①需要的工具:Ubuntu 或者 服务器
②关于Ubuntu以及相关依赖库的安装
· win10系统安装Ubuntu
Win10有内置的Ubuntu,打开微软商店,搜索关键字wsl 即可找到相关软件,这里我使用的是Ubuntu20.04.4版本。点击安装,按照它的操作步骤走就行。但是由于它默认安装在c盘,所以如果想换安装位置的话,可以参考博客:
Win10自定义路径位置安装WSL2 (Ubuntu 20.04) 并配置CUDA___XWH1999__的博客-CSDN博客_win10 wsl 安装位置
· 在Ubuntu中安装bwa和samtools
见另一篇文章:在Ubuntu中安装bwa和samtools的问题汇总_liuyujiee的博客-CSDN博客
· 补充一个Ubuntu安装anaconda3
- 首先下载安装包:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D l我下载的是Anaconda3-2021.11-Linux-x86_64.sh
- 执行 bash Anaconda3-2021.11-Linux-x86_64.sh
- 按照说明一直回车就行。gedit ~/.bashrc 可以查看是否添加了环境变量。
- bwa比对和samtools建立索引,需要在py3环境下运行。虽然默认是py3,但是也可以单独创建一个环境,这里我的环境是py3_bwa。
③序列比对和建立索引
bwa软件的作用是将序列比对到参考基因组上,在比对之前,首先需要对参考基因组建立索引。如果没有建立索引,就会出现[E::bwa_idx_load_from_disk] fail to locate the index files这个错误。
关于bwa和samtools的使用,可以参考:
https://www.jianshu.com/p/19f58a07e6f4
对sam/bam文件进行操作_qq_39306047的博客-CSDN博客_sam文件 sort
代码截图:
④识别RNA编辑位点
· 安装REDItools工具
1. 首先要创建一个py2的环境:conda create -n py27 python=2.7
2. 按照readme安装相关的包:
REDItools/README_1.md at master · BioinfoUNIBA/REDItools · GitHub
查看包的安装语句:
3. 需要安装下面的包:
pysam:conda install -c bioconda pysam=0.91.0
通过 python -c 'import pysam' 查看pysam有没有安装成功能不能成功导入
blat: conda install -c bioconda blat
samtools: conda install -c bioconda samtools
安装REDItools:(注意安装的路径)
git clone https://github.com/BioinfoUNIBA/REDItools
cd REDItools
python setup.py install
· 可以愉快地使用这个工具啦
代码:
conda activate py27
python ./REDItools/main/REDItoolKnown.py -i /mnt/h/数据/宫颈癌RNAseq/fq_sam_bam/SRR116812${i}.sort.sam -f /mnt/h/数据/宫颈癌RNAseq/genome.fa -l /mnt/h/数据/宫颈癌RNAseq/hg19_table.txt.gz -o /mnt/h/数据/宫颈癌RNAseq/output/GSE149763 -c 0 -q 0 -m 0 -v 2 -n 0
conda deactivate py27
· 好像并不愉快😭,可能会遇到问题