何物昂-CSDN博客

原创计算人类基因组外显子区域长度

问题问题：https://mp.weixin.qq.com/s/xS-h0TQnCwjvgcRA7Ru3NQ思路：数据：ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS.current.txt获取每一个exon的坐标。去重重复坐标，然后计数。## count.pybase_pos = set() ## 以集合来存储所有非重复位置位置with open("./CCDS.current.txt", "r") as f: f

2021-11-21 14:40:11 1066

原创 R: 每年发表基因简单分析

问题研究最热门的基因是什么分析数据：来自@小灰侠整理，https://blog.csdn.net/coding_Joash/article/details/120579109(白嫖使我快乐）library(org.Hs.eg.db)### gene id 以及对应的发表时间gene <- read_tsv("Homo_GeneID_year.txt", col_types = cols("c", "c"))###得到gene id对应得gene symbolids=toTable

2021-10-06 22:43:32 307

原创 R绘制文章标题词云

数据和问题见：把tcga大计划的CNS级别文章标题画一个词云词云绘制关于词云绘制较详细的步骤可以参考，之前的博文 https://blog.csdn.net/shy_321/article/details/1205671112018的TCGA的泛癌项目论文获取数据文章的标题都在该网页里，(https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html )可以选择使用复制粘贴的方式(数据不是很多) 或者，

2021-10-06 15:47:51 309

原创 R绘制文章标题词云

问题https://mp.weixin.qq.com/s/MGRIJAcSsePtMdLD6hwDwQ，根据45文章的标题，生成有词云图。词云word cloud, 词云图，将word 展现在一张图上。图片中word 大小由word 的频率大小决定。一张好的词云图，可以让人快速了解到，词云图对应数据的所包含的重点。一张词云图的绘制，可以简单分为三个步骤：数据收集，即获取需要进行词云图分析的数据数据处理，即数据清理，最终得到有效的词频绘图数据收集总共45篇文章的标题，保存为文件：d

2021-09-30 17:44:42 647

原创 GMT格式文件

GMTGMT: Gene Matrix Transposed file format (*.gmt)。GMT 文件格式是一种以制表符分隔的文件格式，用于描述基因集。在 GMT 格式中，每一行代表一个基因集。其中每一行，分三个部分：第一列，基因集名，不可重复第二列，对该基因集的描述，可简单填充为’na’剩余列，都是属于该基因集的基因，不同基因集，基因数量可不同生成GMT文件library(clusterProfiler)data(gcSample) ## 使用测试数据集#> c

2021-09-25 20:54:23 4683 1

原创基于小鼠的基因集数据库资源（人鼠基因集比较）

问题https://mp.weixin.qq.com/s/DgF0v1vQj65BPCvAFfZjQw找出人基因集的基因数量小鼠基因集的基因数量两个基因集overlap数量人特有的基因数量小鼠特有的基因数量思路将人鼠的基因转化为同源ID，使用同源id 来找overlap 和特异基因。没有对应的同源id，转化为gene symbol ，根据大小写来比较（虽然我觉得，找不到同源id，很大可能不是同源基因了，它们的gene symbol估计也不一样，不过以防万一，还是比较一下。。。）lib

2021-09-16 12:06:26 1554

原创 R版本的递归生成全排列

问题： https://mp.weixin.qq.com/s/U29Ha92GXgRTAWTXe2sOQA递归函数自己调用自己的过程，称为套娃递归。举一个简单例子，阶乘。fact <- function(n){ if (n == 1){ return(1) } res <- n * fact(n-1) return(res)}##############> fact(9)[1] 362880实际上递归程序不可能一直递归循环下去，需要利用其它条

2021-09-14 11:20:37 575

原创人基因转换小鼠基因

目录直接大小转换使用基因同源对照表问题：https://mp.weixin.qq.com/s/1iuKrNwtpU4Z-Jz7SdaA3w直接大小转换大多数情况下，人类gene symbol是全大写，转换成小鼠，把除首字母外的字符变成小写就好了。现在，我们按照直接首字母转换的方式来进行代码编写。有些gene 不能直接转换，我们就直接返回NA，避免返回错误的答案。library(org.Mm.eg.db)### 获取小鼠全部gene symbolall_mm_gene_symbol &lt

2021-09-08 22:18:26 2597

原创 RNA-Seq分析笔记

RNA-Seq分析笔记数据数据下载数据质控转录本定量差异分析数据准备PCA作图差异基因计算热图富集分析可变剪切全部内容在语雀里，懒得复制过来了。打开链接查看

2021-06-28 15:12:48 302

原创 Ensemble ID格式及转换

目录Ensemble IDEnsemble ID 格式Ensemble ID转换bitrselectbiomaRt 转换参考吐槽Ensemble IDEnsemble ID 是Ensembl 数据库使用的ID标识符，用于标识不同的分子特征，如基因，转录本，外显子，蛋白。大多数据库都有一套自己的ID命名。ID 主要是为消除歧义，在特征注释或数据库更新时也能保持一致。不像人为命名的分子名字，如基因名字那样可能发生改变。就类似于我们的身份证号, 名字方便于平常的交流使用，ID是独一无二的。Ensemble

2021-06-17 09:22:45 19191 3

shy_321的博客

原创计算人类基因组外显子区域长度

原创 R: 每年发表基因简单分析

原创 R绘制文章标题词云

原创 R绘制文章标题词云

原创 GMT格式文件

原创基于小鼠的基因集数据库资源（人鼠基因集比较）

原创 R版本的递归生成全排列

原创人基因转换小鼠基因

原创 RNA-Seq分析笔记

原创 Ensemble ID格式及转换

homologeneData.rda

空空如也