- 博客(12)
- 收藏
- 关注
原创 [Linux|生信]project4_04:定量
背景前面介绍了如何从sra文件得到fastq文件,并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基,如何进行序列比对。[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件[Linux|生信]project4_02:质控过滤[Linux|生信]project4_03:序列比对今天介绍如何将序列信息进行定量,用于后续数据挖掘。Just Do It!定量gtf=$HOME/Project4/source_data/cle
2022-12-12 10:19:37 382
原创 [Linux|生信]project4_03:序列比对
背景前面介绍了如何从sra文件得到fastq文件,并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件[Linux|生信]project4_02:质控过滤今天介绍一下如何自建序列索引以及序列比对Just Do It!输入文件准备基因组注释文件(*.gff或*.gft)参考基因组文件(*.fa或*.fa.gz)前述经过质控的序列文件(.fa或.fa.gz)注:本文后面
2022-12-11 21:00:54 681 2
原创 [Linux|生信]project4_02:质控过滤
背景前面介绍了如何从sra文件得到fastq文件[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件今天介绍一下如何对fastq文件进行批量质控。在此申明,该系列处理的是单细胞转录组的数据,不是常规的Bulk转录组,故质控后的处理思路有所不同。质控(QC)# 一:质控前的初步看测序数据质量:fastqc与multiqc# 1.激活前面生成的虚拟环境,进行fastqc与multiqcconda activate biotre
2022-12-07 21:18:07 1609 1
原创 [Linux|生信]project4_01:批量下载sra文件并转化为fastq文件
背景最近参加“生信技能树”组织的实习,要求完成从*.sra原始数据出发完成人类单细胞转录组数据下载、质控过滤、Hisat2比对、featureCounts定量的任务。接下来一段时间会出一个小系列。几年前在学校的生信课上分析了一个完整的Chip-Seq流程,当时对很多概念一知半解,这次借着这个机会再回头打打基础。数据下载环境准备首先安装一个conda虚拟环境并更换镜像(下载国外资源更方便),见文末参考链接# 下面四行配置北京外国语大学的conda的镜像# 配置完需要重启终端c
2022-12-05 19:44:56 2464
原创 [Python|生信]从Fasta文件出发获取序列的基本信息
背景最近参加了个生信的面试,记录一下有意思的面试题。题目描述要求从提供的*.fasta文件出发:获得序列的反向互补序列,并统计信息:序列条数,碱基总数,N50,N90,GC 含量。提取每条序列上 32bp-332bp、780bp-992bp 的序列。统计单碱基重复 4 次及以上的序列在每条序列上出现的次数。如 AAAAA 或者 TTTT 等如 “AAATTTTTTTCCCCAAAAAAA”,结果如下:the 4th character T repeat 7 timesthe 11th ch
2022-11-27 20:29:36 2123
原创 R语言操作PDF文件的包
背景有过文章投稿经验的朋友们知道,文章中的图片排版是个很繁琐的过程。涉及到多个图片的组合跟字体字号的调整。刚开始自己没有这方面经验,对输出的结果图格式比较随意:*.jpg,*.png等等。直到后面需要排版时傻眼了,常规的排版工具:Adobe Illustrator(AI)、福昕编辑器可能对矢量图进行编辑。以后所有结果图我都一律保存为*.SVG或*.PDF格式(矢量图,可以排版)。之前出现过这种需求:需要删除PDF文件中的空白页或截取部分页面,我记得当时是充值了WP会员才解决这个问题。今天通过学习“生信技
2022-11-26 19:20:06 1364
原创 R语言提取韦恩图交集信息
背景最近看“生信技能树”R语言相关教程,发现对于常见的韦恩图操作中,有这样的一个需求:不仅需要得到venn图还希望提取交集的元素信息。联想到之前自己项目中有这一部分,故整理。Venn图绘制输入数据:原始输入数据是当时项目中得到三个基因集中的相关差异基因。出图:首先将三个基因集中基因保存至“venn_list”变量中;通过R包“VennDiagram”中的“venn.diagram”函数可以一键出图,其中通过"filename"参数指定保存的路径及文件名;最终效果图如下:提取交集元素首
2022-11-25 21:23:29 6358
原创 R语言将数据表格化
背景最近报名了生信技能树的实习,其中一个考核是Debug之前可以正常运行但是现在由于版本更新等原因出错的代码。生信技能树作为生信领域头部公众号,之前也是一直想好好啃一啃干货。现在借助这次实习机会好好成长一下吧~发现一个有意思的可视化函数。一图胜千言,现在越来越重视数据的可视化。自然,联想到之前做过项目中可视化临床基线表的内容,故一齐汇总。利用“DT::datatable”函数将数据框转化为表格以网页形式展示下述代码首先通过常用的基因注释包“org.Hs.eg.db”得到基因的Symbol、name
2022-11-25 09:51:47 3020
原创 R语言获取SCI期刊配色方案
背景说起R语言,大部分人的第一印象就是它是画图的。画图离不开配色,但是对于颜色的十六进制编码,表示对人理解起来不太友好,但又不能总用吸管工具到处获取颜色。今天通过学习"生信技能树"的文章,发现“ggsci”包可以一键提取SCI期刊的配色方案。不用再为颜色发愁。原文见文末链接。获取SCI期刊配色方案首先需要导入"ggsci"包,获取指定期刊的配色方案(以“_lancet_”期刊配色风格为例);然后通过“pal_lancet”函数获取颜色的十六进制编码, 输出"cl"变量可得到颜色编码;最后通过“sc
2022-11-24 19:32:57 2411
原创 2021-06-04
Linux节点间免密登陆Linux节点间免密登陆生成密钥对(先登陆到某个节点)本机ssh访问Linux节点间免密登陆参考链接linkhttps://blog.csdn.net/huanbia/article/details/51322677生成密钥对(先登陆到某个节点)ssh-keygen -t rsa -P ‘’一直回车即可本机ssh访问在当前节点上执行如下命令将公钥文件写入授权文件中,并赋值权限即可cat ~/.ssh/id_rsa.pub >>~/.ssh/authori
2021-06-04 17:36:09 107
原创 MPI跨节点小结
mpi跨节点运行配置mpi_hello_world.c源码编译单节点多进程运行多节点运行准备节点名称文件mpich3节点文件openmpi3节点文件运行mpich3在各个节点单核起进程在各个节点多核起进程openmpi3将各个节点所有进程耗完在其他节点起进程指定每个节点起进程数目注:以下教程未特别注明均为在mpich3下测试mpi_hello_world.c源码//mpi_hello_world.c#include <mpi.h>#include <stdio.h>in
2021-06-04 17:26:55 1757
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人