生信学习
文章平均质量分 81
记录生信的学习过程,方便自己,方便他人。
Dzfly..
欢迎关注个人公众号《生信er》
展开
-
生信刷题之ROSALIND——Part 5 (PERM, PRTM, REVP)
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。原创 2023-05-12 20:57:41 · 466 阅读 · 1 评论 -
生信刷题之ROSALIND——Part 4 (MPRT, MRNA, ORF)
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。原创 2023-05-07 14:23:22 · 1290 阅读 · 0 评论 -
生信刷题之ROSALIND——Part 3
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。原创 2023-04-25 14:01:21 · 680 阅读 · 0 评论 -
生信刷题之ROSALIND——Part 2
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。原创 2023-04-18 22:16:23 · 1153 阅读 · 0 评论 -
生信刷题之ROSALIND——Part 1
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。原创 2023-04-11 22:24:18 · 1301 阅读 · 0 评论 -
PPI网络的构建与美化(String+Cytoscape)
PPI网络的构建与美化(String+Cytoscape)原创 2023-01-07 21:39:14 · 11925 阅读 · 3 评论 -
RNA-seq——上游分析练习2(数据下载+trim-galore+hisat2+samtools+featureCounts)
本文是转录组上游分析的实战练习。原创 2022-12-18 18:57:38 · 4355 阅读 · 0 评论 -
RNA-seq——学习路线、学习经验、实战项目、学习总结
转录组分析的学习路线、实战项目、学习经验、学习总结。原创 2022-09-12 15:34:30 · 1351 阅读 · 0 评论 -
RNA-seq——六、差异基因富集分析(画一个上下调基因分别富集的双Y轴柱状折线图)
写在前面——书接上回,通过绘制差异基因火山图,能够看出上下调基因的分布情况。这次我们通过对差异基因的GO富集分析,可以看到涉及到的具体通路,更进一步的了解实验变化。本文使用的数据集为私有数据集,不过绘图并不难,弄懂原理之后,套用在自己的数据上即可。原创 2022-09-12 14:36:52 · 5131 阅读 · 0 评论 -
RNA-seq——五、根据差异基因画火山图、在火山图上标记基因名
写在前面——之前写的RNA-seq(一到四)是根据别人文章中提到的数据进行一系列分析的,但是找公司做的单细胞测序,一般不需要自己进行数据清洗之类的操作,公司会直接给个clean_data,以及所有的你需要的文件,或者一个云系统的账号。所以我们最终要做的就是根据这些数据,来绘制达到文章发表级别的图,来说明我们实验想表达的事情。原创 2022-09-11 20:25:19 · 6472 阅读 · 3 评论 -
RNA-seq——四、根据序列比对结果筛选差异基因
写在前面——经过前面的一系列分析,我们得到了几个counts数据,接下来就需要根据这些数据来进行分析。本文使用Rstudio,从序列比对结果中筛选出差异基因,目的是(根据不同基因的表达量)找出实验组与对照组的差异。本文使用的数据见。原创 2022-09-11 19:09:19 · 3127 阅读 · 0 评论 -
RNA-seq——上游分析练习(数据下载+hisat2+samtools+htseq-count)
写在前面——之前使用的数据是单端测序,但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中,因为参考基因组注释文件找的不对,所以reads计数没有做好。这次数据质量不错,所以省略了质控和清洗,直接进入主题。由于租的服务器是2核+8G的,所以在生成sam文件和sort以及htseq-count都花费了大量的时间(四个样本集整整跑了将近一整天)。不过最后结果算是复现出来了,甚是欣慰。原创 2022-08-25 17:32:40 · 1951 阅读 · 0 评论 -
RNA-seq——三、使用Hisat2进行序列比对
Jimmy老师主要演示了四种比对工具,分别为hisat2、subjunc、bowtie2、bwa。除了subjunc能够直接生成bam文件外,这些软件的用法都很相似。需要根据自己的需求来选择对应的软件。这里以使用hisat2为例。原创 2022-08-22 19:43:44 · 4091 阅读 · 0 评论 -
RNA-seq——二、sra数据下载、fastqc与质量控制
sra数据下载、fastqc、multiqc、质量控制原创 2022-08-21 18:24:51 · 2015 阅读 · 0 评论 -
RNA-seq——一、Linux软件安装
在安装软件时,优先考虑conda安装。conda使用起来不仅方便快捷,而且能够帮助管理软件。当遇到conda安装不了的软件时,可以使用wget进行安装。都安装不了的话,就需要找到软件官网,看看是不是缺少依赖的环境或者软件已经停止维护了。总而言之,软件对应的官网很重要。原创 2022-08-19 17:28:40 · 1978 阅读 · 0 评论 -
RNA-seq——快速下载SRA数据、解决fq文件中测序质量全为 ‘?‘ 的问题
写在前面——在学习RNA-seq时,需要从网上下载公开数据集来上手分析,大部分教程都很古老,其中在ncbi中ftp的下载链接已经不存在了,甚至可以直接下载fastq文件。但是,直接下载的fastq文件做fastqc之后结果为一条直线,因为文件里的测序质量都是30,要想下载带正常质量数据的文件需要换一种方法。原创 2022-08-19 10:42:49 · 2231 阅读 · 0 评论 -
B代表哪一种氨基酸?B和b代表的氨基酸一样吗?
今天在看蛋白质的时候发现了一条这样的序列KWKLFKKIEKVGQNIRDGIIKAGPAVAVVGQATQIAKb看到结尾有个小写的b,感觉很陌生。一般氨基酸不都是用大写字母来表示吗?而且貌似也没见过大写的B表示的氨基酸。查查资料~嗯,确实没有B!但是论文里面总不能是错的吧!再查查资料~除此之外,还有一些三字母或单字母符号可用来表示未明确定义的缩写:Asx、B可代表天冬氨酸(Asp、D)或天冬酰胺(Asn、N)。Glx、Z可代表谷氨酸(Glu、E)或谷氨酰胺(Gln、Q)。Xle、原创 2022-02-22 16:00:21 · 3175 阅读 · 1 评论 -
生信学习——GEO数据挖掘
步骤STEP1:表达矩阵ID转换STEP2:差异分析STEP3:KEGG数据库注释完整代码写在前面——按照生信技能树的学习路线,学完R语言就该学习GEO数据挖掘了。有人说GEO数据挖掘可以快速发文(https://zhuanlan.zhihu.com/p/36303146),不知道靠不靠谱。反正学一学总没有坏处。看完Jimmy老师的视频,写一篇总结方便日后复习。这里有很多操作在《生信人的20个R语言习题》都可以见到,那里写的更加详细。视频教程:https://www.bilibili.com/vide原创 2021-12-15 14:17:24 · 7433 阅读 · 2 评论 -
R语言学习——by函数的一些理解
在做GEO数据挖掘时,有一步操作是整合表达矩阵,即多个探针对应一个基因的情况下,只保留在所有样本里面平均表达量最大的那个探针。tmp <- by(exprSet,ids$symbol, function(x) rownames(x)[which.max(rowMeans(x))])一开始不是很理解,所以去找了by函数的例子,如下。类比了一下可以看出:这个操作首先是根据symbol对exprSet进行分类;然后对同一类数据计算其行平均值;最后找出平均值最大的行,取其行名。原创 2021-12-07 20:05:22 · 4451 阅读 · 0 评论 -
生信学习——R语言学习总结
写在前面——经过了四十天断断续续的学习,算是对R语言有了初步的了解。其实使用R语言,无非就是对数据进行处理分析,然后把结果可视化。但是数据的千变万化,还有数以万计的函数、数据格式,使得这个过程变得很复杂。无他,唯手熟尔。本篇文章是为了梳理一下学习路线,方便日后复习补充。生信学习——R语言练习题-初级(附详细答案解读)学习了Rstudio的使用,数据格式,数据合并,简单绘图。记得多使用str() class() dim()等函数来查看数据的信息,多使用 ?+函数 来查看相应函数的帮助文档。生原创 2021-09-08 19:25:13 · 2147 阅读 · 0 评论 -
生信学习——基于R的可视化习题30个(附详细答案解读)
题目目录一、基础绘图1. 对RNAseq_expr的每一列绘制boxplot图2. 对RNAseq_expr的每一列绘制density图3. 对RNAseq_expr的每一列绘制条形图4. 对RNAseq_expr的每一列取log2后重新绘制boxplot图,density图和条形图5. 对Q4的3个图里面添加 trt 和 untrt 组颜色区分开来6. 对RNAseq_expr的前两列画散点图并且计算线性回归方程7. 对RNAseq_expr的所有列两两之间计算相关系数,并且热图可视化8. 取RNAseq原创 2021-09-08 17:48:54 · 2264 阅读 · 0 评论 -
生信学习——基于R的统计习题(附详细答案解读)
题目目录基础概念1. 载入R中自带的数据集 iris,指出其每列是定性还是定量数据2. 对数据集 iris的所有定量数据列计算集中趋势指标:众数、分位数和平均数3. 对数据集 iris的所有定性数据列计算水平及频次4. 对数据集 iris的所有定量数据列计算离散趋势指标:方差和标准差等5. 计算数据集 iris的前两列变量的相关性,提示cor函数可以选择3种methods6. 对数据集 iris的所有定量数据列内部z-score标准化,并计算标准化后每列的平均值和标准差7. 计算列内部zcore标准化后 i原创 2021-09-03 22:22:15 · 4316 阅读 · 1 评论 -
生信学习——生信人的20个R语言习题(下)(附详细答案解读)
题目目录12. 理解统计学指标mean,median,max,min,sd,var,mad并计算出每个基因在所有样本的这些统计学指标,最后按照mad值排序,取top 50 mad值的基因,得到列表。13. 根据第12步骤得到top 50 mad值的基因列表来取表达矩阵的子集,并且热图可视化子表达矩阵。试试看其它5种热图的包的不同效果。14. 取不同统计学指标mean,median,max,mean,sd,var,mad的各top50基因列表,使用UpSetR包来看他们之间的overlap情况。15. 在第二原创 2021-08-18 11:21:58 · 2581 阅读 · 0 评论 -
生信学习——生信人的20个R语言习题(上)(附详细答案解读)
题目目录1. 安装一些R包。2. 了解ExpressionSet对象,比如CLL包里面就有data(sCLLex),找到它包含的元素,提取其表达矩阵(使用exprs函数),查看其大小。3. 了解 str,head,help函数,作用于第二步提取到的表达矩阵。4. 安装并了解hgu95av2.db包,看看ls("package:hgu95av2.db")后显示的那些变量。5. 理解head(toTable(hgu95av2SYMBOL))的用法,找到 TP53 基因对应的探针ID。6. 理解探针与基因的对应关原创 2021-08-18 11:09:24 · 4303 阅读 · 3 评论 -
生信学习——R语言小作业-中级(附详细答案解读)
题目目录1. 请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)。2. 根据R包hgu133a.db找到下面探针对应的基因名(symbol)。3. 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量,并且绘制在 progres.-stable分组的boxplot图。想想如何通过 ggpubr 进行美化。4. 找到BRCA1基因在TCGA数据库的乳腺癌数据集([Breast Invasive Carcinoma (TCGA, PanCancer Atl原创 2021-08-11 18:10:08 · 2818 阅读 · 1 评论 -
install.packages(“hgu133a.db“)报错——解决办法
问题描述install.packages("hgu133a.db")WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:https://cran.rstudio.com/bin/windows/Rtools/Warning in i原创 2021-08-04 10:52:21 · 4901 阅读 · 1 评论 -
生信学习——R语言练习题-初级(附详细答案解读)
题目目录1. 打开 Rstudio 告诉我它的工作目录。2. 新建6个向量,基于不同的数据类型。(重点是字符串,数值,逻辑值)3. 告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么?4. 新建一些数据结构,比如矩阵,数组,数据框,列表等重点是数据框,矩阵)5. 在你新建的数据框进行切片操作,比如首先取第1,3行, 然后取第4,6列6. 使用data函数来加载R内置数据集,找到rivers的描述。7. 下载 [https://www.ncbi.nlm.nih.gov/sra?term原创 2021-07-31 22:59:34 · 11198 阅读 · 2 评论 -
生信学习——sam和bam格式文件的shell小练习(附详细答案解读)
题目目录准备练习文件1. 统计共多少条reads(pair-end reads这里算一条)参与了比对参考基因组2. 统计共有多少种比对的类型(即第二列数值有多少种)及其分布。3. 筛选出比对失败的reads,看看序列特征。4. 比对失败的reads区分成单端失败和双端失败情况,并且拿到序列ID5. 筛选出比对质量值大于30的情况(看第5列)6. 筛选出比对成功,但是并不是完全匹配的序列(看第6列)7. 筛选出inset size长度大于1250bp的 pair-end reads8. 统计参考基因组上面各条原创 2021-07-15 16:09:41 · 2145 阅读 · 2 评论 -
生信学习——fasta和fastq格式文件的shell小练习(附详细答案解读)
题目目录1. 统计**reads_1.fq** 文件中共有多少条序列信息2. 输出所有的**reads_1.fq**文件中的标识符(即以@开头的那一行)3. 输出**reads_1.fq**文件中的 所有序列信息(即每个序列的第二行)4. 输出以‘+’及其后面的描述信息(即每个序列的第三行)5. 输出质量值信息(即每个序列的第四行)6. 计算**reads_1.fq** 文件**含有N碱基**的**reads个数**7. 统计文件中**reads_1.fq**文件里面的序列的**碱基总数**8. 计算**r原创 2021-07-09 23:41:49 · 3411 阅读 · 0 评论 -
生信学习——Linux必做20题(附详细答案解读)
题目列表1. 在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。2. 在创建好的文件夹(/home/qiime2/Desktop/test/1/2/3/4/5/6/7/8/9)下创建文本文件 me.txt3. 在文本文件 me.txt 里面输入内容:4. 删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt5. 在任意文件夹下面创建 folder_1~5这5个文件夹,然后每个文件夹下面再创建 folder_1~5这5个文件夹6. 在第5题创建的每一原创 2021-07-07 11:35:09 · 2529 阅读 · 3 评论