python lncrna_LncRNA生信分析案例

LncRNA的筛选

做个笔记,哈哈哈

这个流程是处于链特异性建库(dUTP)的RNA-seq流程,对于非链特异性建库需要修改一些参数。

一、qc和reads质量过滤,fastqc,multiqc,trim_galore就可以了

1.fastqc得到质量报告

ls *gz |xargs -I {} echo 'nohup fastqc {} &'>fastqc.sh

bash fastqc.sh

上面代码比较适合于批量处理,如果电脑核比较紧张,还是用下面这个吧

ls *.fastq.gz | xargs fastqc

样本量大的时候用multiqc,生成汇总信息

multiqc .

2.使用trim_galore进行质量过滤,质量过滤软件很多,随便选一种就好了。

ls *1.fastq.gz > 1

ls *2.fastq.gz > 2

paste 1 2 > config

rm 1 2

bin_trim_galore=trim_galore

dir='/home/dklly/RNA_seq/clean'

cat config |while read pair

do

arr=($pair)

fq1=${arr[0]}

fq2=${arr[1]}

$bin_trim_galore -q 25 --phred33 --length 80 --stringency 3 --paired -o $dir $fq1 $fq2

done

二、比对(hisat2)

1.参考基因组(fasta文件),注释文件(gtf文件)建议去ensembl下载,ncbi,ucsc上也有,随性就好

2.使用hisat2内置的两个python脚本重gtf文件中获取外显子数据,和剪接位点数据,也可以提取snp信息(需要vcf文件)

hisat2_extract_exons.py

hisat2_extract_splice_sites.py

hisat2_extract_snps_haplotypes_VCF.py

3.建立索引,这个耗时有点长,但是hisat2-build可以使用多线程,呵呵

nohup ~/dk/Miniconda3/envs/RNA_seq_software/bin/hisat2-build -p 8\ Oryctolagus_cuniculus.OryCun2.0.dna_sm.toplevel.fa \

--ss Oryctolagus_cuniculus.OryCun2.0.93.ss\

--exon Oryctolagus_cuniculus.OryCun2.0.93.exon \

Oryctolagus_cuniculus.OryCun2.0.dna_sm.toplevel\

4.对双端reads进行比对,得到sam文件,我直接用samtools转为bam了,节约空间

$hista2 -p 20 --dta --rna-strandness RF -x $index -1 $fq1 -2 $fq2 -S $samName

samtools view -bS -@ 10 $samName > ${samName%.*}.bam

三、转录组的组装

ls *.sort.bam|while read id;do ~/miniconda3/envs/RNA-seq-software/bin/stringtie ${id} -p 2 -G ~/index/Oryctolagus_cuniculus.OryCun2.0.93.gtf -o ${id%%.*}.gtf -l ${id%%.*} ; done

然后使用stringtie --merge合并得到,合并的gft文件

未完待续

收藏 | 0

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
生物信息学是科学研究的一个多学科领域,它使用计算机科学知识来分析生物数据。 生物信息学通常在实验室中用于湿实验室实践。 该研究领域涵盖基因组学,蛋白质组学和代谢组学。 这些中的每一个都处理由世界著名组织(如NCBI,EMBL等)创建的各种数据库。各个级别的学生,院士,企业人员从诸如ENA,Ensembl,UniProt,PDB等著名数据库中提取信息。提取的数据需要进行转换以进行分析和图形绘制。 根据分析结果和图形结果,科学家和研究人员得出结论或做出重要决定,以建立某些生物学事实。 现在,从巨大的生物学数据库中提取生物学数据是一项艰巨的任务。 它需要一个非常有效的工具,该工具不仅可以提取信息,而且还可以提供数据分析和图形绘制便利。 在技​​术领域中,有许多编程工具可以利用它们的弱点和优点。 例如C,C ++,Perl,Ruby,JavaScript或PHP,Java,R,Python,Bash等语言工具。生物信息学的研究人员大致分为两类:第一类不想自己制作软件和其他人。 两者都将进行数据分析; 执行统计测试,绘制图表并使用其他程序员制作的生物信息学软件。 但是第二组可能有兴趣编写自己的脚本或构建供自己使用或帮助其他研究人员的软件。 对我来说,R编程将是上述两个小组的最佳选择。 因为它具有丰富的生物软件包集合,可支持在生物信息学研究领域对lncRNA进行深入分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值