![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
生物信息学基础分析
文章平均质量分 59
本科期间的一些课程报告。
今天也是个妖精头子呀
top3读研,生物信息学与脑科学交叉研究方向。
一般不会回复CSDN私信。若有技术交流,可以联系邮箱2456392738@qq.com
展开
-
Shell | shell脚本中使用cp指令(外两则)
(1)在定义变量的时候,等号两侧避免使用空格,否则无法识别;(3)使用cp指令的时候,可以将拷贝前后的目录定义为变量;(2)在指令中使用变量的时候,可以用双引号将变量括起来;原创 2024-05-24 22:23:19 · 217 阅读 · 0 评论 -
代码文件备份 | 6-30 组学数据差异分析
课程作业代码备份。原创 2022-06-30 19:38:13 · 255 阅读 · 0 评论 -
单细胞基础分析 | 对细胞按照基因marker进行分型(ACC脑区)
因项目的需求,需要对数据进行简单的分类,然后找差异表达基因。虽然我自知自己在这个过程中的很多方面并不理解透彻,很糊涂的去做。但是我愿意去尝试完成。现在开始跟着Seurat上面的教程一点点的来做。参考链接:https://satijalab.org/seurat/articles/pbmc3k_tutorial.html1、加载分析必须的包library(Seurat)library(dplyr)library(patchwork)2、加载10XGenomics 数据data<-.原创 2022-03-12 16:16:41 · 9144 阅读 · 0 评论 -
代码文件备份 | 3-10:对arraymatrix数据进行初步筛选与分组差异表达分析
data<-read.table("GSE25219-GPL5175_series_matrix.txt",comment.char = "!",header = T)row.names(data)<-data[,1]data<-data[,-1]label<-read.table("label.txt")region<-read.table("region.txt")year<-read.table("year.txt")meta.data<-rbi原创 2022-03-11 00:01:10 · 336 阅读 · 0 评论 -
单细胞基础分析 | 基因细胞类型特异性富集分析
本文目标是:通过分析单细胞的数据,根据已有的细胞分型,去看我们感兴趣的基因集在这些细胞类型中的富集情况。单细胞数据和bulk数据会有些不同,可能一些具体的技巧需要注意一下。1。切换到R4环境,加载RDS数据。conda activate r4R #进入到Rdata<-readRDS("merge_obj.rds") # 加载原始数据library(Seurat)#加载Seurat包levels(data) #查看数据集的level [1] "L5 IT" "L4 IT".原创 2022-03-21 17:25:21 · 1547 阅读 · 1 评论 -
生物信息学分析 | 物种间的同源基因的批量注释
项目需求:现在以及大鼠的基因若干,想要转换成人类对应的同源基因的名及ID,怎么对应?解决策略:(几行代码就可以快速解决,感谢R)#安装好R包install.packages("homologene")library(homologene)homologene::taxData#Rattus norvegicus:10116 #Homo sapiens:9606###############################################################.原创 2022-03-18 13:58:13 · 835 阅读 · 0 评论 -
生物信息学 | 富集分析
主要目标:理解这个代码的主要的思路。想分析一下老师的这个富集分析的主要的思路是什么?一行一行的理解这个代码。# Get cell type mean of each genecellTypeMean <- t(apply(dat, 1, function(v) { tapply(v, droplevels(factor(cellSubtypes, levels=subtypeOrder)), mean)}))}(1) droplevels()是什么意思> x <- c.原创 2022-03-17 19:01:50 · 1053 阅读 · 0 评论 -
affymatrix探针转换 | GPL5175探针对应的基因转换
一般情况下,有一些比较成熟的对应平台的注释数据集的R包。但是这个注释平台,我在Bioconductor上找了一圈都没有找到。只能通过最原始也最可靠的方法,从GEO数据集上去下载这部分的注释文件。以下展示全过程。我要检查的数据平台是:GPL5157。数据集的注释集链接为:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL5175这个注释数据集比较难弄的地方在于,它的基因集注释的不太好。没有比较直接的可供提取的genesample的信息;在ge.原创 2022-03-17 18:26:17 · 5029 阅读 · 4 评论 -
近期写文章的规划
每次遇到一个具体的问题,都不好意思开口说自己是这个专业的。只知道一点,但是了解的并不是很多。觉得是自己很大的一个不足。(1)一方面是本科期间这方面涉猎的并不是特别多。GWAS和WGCNA都没有很广泛的涉及。(2)另一方面,自己当初学的并不是特别的精深,只知其然,不知其所以然。(3)增强自己数理化计算机的本领。自己所在的这个实验室,有各方面的专业的人才,很适合我自己的发展。老师也是多边形的战士,所以要充分利用好身边的这部分资源。下面要有一个写作的计划。1。关于单细胞多组学方面的文章。2。WGC.原创 2021-11-01 21:10:01 · 160 阅读 · 1 评论 -
经验总结 | PBS系统的使用
下定决心要把PBS系统弄明白,今天又被师兄们点名警告,超级不应该。今天晚上,下定决心要学会使用PBS的作业调度系统。然后实操一下。加油!加油!而且我好像发现,每次写作业的笔记,总能够很好的督促我做事情,而没有“输出”的过程一般工作效率都很低效。终于理解了曹柠的那句,用“输出促进输入”。好了,闲话不讲,现在开始干活。其实,我是非常的迷茫的。我觉得交叉学科不好的地方正是在于,学啥都不精,说啥都不会。而且,觉得我们本科学的东西真少,我就应该修读一个计算机的双学位的,学啥教育学啊!哭泣。自我教育真是一辈子的问题,.原创 2021-08-13 21:52:18 · 4532 阅读 · 0 评论 -
在UMAP图上标识我们感兴趣的基因所在的类群(单细胞数据)
参考链接: https://www.jianshu.com/p/37d2e8d68c91我们这个代码要解决的需求,就是将我们从GEO数据库中下载的表达矩阵(.csv文件)使用seurat这个包进行处理。期望的目标是绘制出UMAP图,将我们感兴趣的基因标记在上面。(1)目前,我对于seurat这个包的认识几乎为零。相当于是从头开始学。(2)另一方面,我们所使用的这个处理矩阵的处理方式是相对比较模糊的。这是我遇到的两个难题,我相信我每次都具有化险为夷的能力,我相信自己可以接下去克服难关。我希望我的.原创 2021-07-22 19:18:23 · 9179 阅读 · 1 评论 -
RNA-seq的典型流程(protocol)
一、RNA的分离从新鲜的或者是冷冻的细胞或组织样本中分离RNA,一般情况下,样品会被DNA污染。因此,在制备文库之前,会使用DNA酶(降解DNA)降解RNA样品中的DNA污染。二、RNA的质量检查(在后续分析的时候也有质控这一步,不过是从测序质量这个层面的质量)在制备文库之前,要在RNA降解,纯度和数量上对RNA进行质量检查。三、文库制备由于DNA相较于RNA有更好的稳定性,所以在测序前,需要将RNA转化为cDNA。RNA-seq常用的illumina平台的文库制备流程:(1原创 2021-03-30 17:25:23 · 5900 阅读 · 0 评论 -
RNA-seq数据上游分析流程(从原始数据开始)
数据分析的基本思路(1)从ncbi的geo或者其它数据库中查找自己感兴趣的RNASeq数据,至少要求给出如下信息:该套数据所发表的文章的名字:该套数据的下载网址:该套数据基本情况介绍(简介以及该套数据包含多少个样本,分为多少种类型,以及每种类型有多少个样本)(2)对芯片数据进行质量控制评价及处理(如果质量差的话,每个样本都应该处理), 可以用软件Fastqc+Trimmomatic配合使用,也可以用其它软件替换(3)用TopHat2 + Cufflinks+Hisat系列软件进.原创 2021-03-25 13:12:22 · 20134 阅读 · 4 评论 -
用limma包进行多组差异表达分析
写在前面:最近在使用limma包进行差异表达分析,参考了网上许多教程都觉得说的云里雾里,很不清楚。经过我自己一段时间非常痛苦的钻研,弄明白了,解决了我的实际需求。于是决定将我的分析经验写下来,分享给需要的人。首先加载前期预处理好的表达矩阵。(我的原始表达矩阵文件已附在文后,大家有需要可以下载实践)setwd("E://Rworkplace")data<-read.table...原创 2020-03-15 00:20:16 · 34849 阅读 · 33 评论 -
【结合文献】——Affymatrix芯片数据预处理
【理论分析】(待补充)【实战】数据来源:GSE98793芯片平台:GPL570([HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array)登录GEO数据库,在检索框中输入GSE98793,打开数据界面。下载最下方的原始数据。下载后大概有857MB大小。注意,使用浏览器下载时可能会出现数据下载不完整的...原创 2020-03-13 19:17:20 · 6325 阅读 · 5 评论 -
ggplot火山图的绘制(volcano plot)
library(ggplot2)volcano<-subset(data,select = c(Pvalue,Foldchange))threshold<-as.factor((log2(volcano$Foldchange)>1.5|log2(volcano$Foldchange)<(-1.5))&volcano$Pvalue<0.05)r03=gg...原创 2019-07-04 14:32:34 · 6600 阅读 · 2 评论 -
modeller建模(单模板建模、多模板建模)
题目要求1、采用modeller对给定序列进行建模,单模板和多模板方法各建3个模型,每种方法选择一个最优的模型,最后进行比较,选出最优的模型(怎样比较两个模型的好坏,可以从哪些角度去看)。并说明理由为何选该模型。2、单模板结果与Swiss-model的结果进行简单的比较,说明异同。(其实这里还是涉及了模型之间比较的问题)3、构建的模型都要在molprobity和SAVES中的工具进行评估...原创 2019-05-31 10:24:42 · 17080 阅读 · 14 评论 -
转录组学分析之基因芯片的预处理
数据详细信息介绍https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE65168从网站中下载编号为GSE65168 的数据集,平台是GPL6244【HuGene-1_0-st】,是Affymetrix公司的新一代芯片(WT),所以因此选择oligo包读取CEL数据,进行更进一步的处理。该芯片一共有八个样本(GSM1588481-GSM15...原创 2019-03-09 21:56:54 · 3574 阅读 · 3 评论