- 博客(122)
- 收藏
- 关注
原创 R语言作图技巧—— 导出高清图
原创:黄小仙上一次小仙同学分享了 facet violin plot的画法,最后还卖了个关子,给大家留了个悬念。科研文章的插图通常要求比较高,不仅要精准地展示出数据,选对图表类型,还需要简洁优美(
2018-12-08 12:05:50 55763 7
原创 卡方检验简介
例如,我们可能对两种治疗后患者的主观改善感兴趣(只使用“是”或“否”回答),而不是测量个体的 SLR。例如,直腿抬高 (SLR) 的受试者能够将腿抬高大于 0 度,这让我们可以计算两组的平均 SLR,并进行 t 检验。然而考虑到数据中的随机错误,我们没有足够的证据来说明观察到的差异表明了真正的潜在差异。我们检测的 p-value(任何 2×2 table 的卡方检验),是计算出的卡方值到坐标最右侧曲线下的面积。在这个例子中,我们的观测值是分类的而非定量的,所以我们应当关注比例而非均值。
2022-11-18 11:02:40 1315 1
转载 TargetMine - 多组学数据整合和药物靶点分析平台
使用TargetMine分析平台可一次查询多个数据库中的关联信息,从而能够更全面地评估研究目标,减少信息遗漏。同时该平台提供多种富集分析和相互作用分析工具,可对输入数据和查询结果进行进一步分析,减少多个工具的交叉使用。
2022-11-17 11:18:53 710
转载 免疫受体 AIRR 分析平台 immuneML 简介
免疫系统在肿瘤分型和治疗中发挥着重要的作用。TCR 和 BCR 都属于适应性免疫受体 Adaptive immune receptor repertoires (AIRR)。AIRR 组成信息结合 MHC,年龄,性别等,在基于受体库的预测和分析免疫状态(健康,疾病,感染等)方面有特殊作用,可应用于疾病诊断。基于序列的抗原和表位结合预测对 AIR-based 的治疗靶标发现和工程化改造具有重要意义。
2022-09-23 09:14:29 1117
转载 单细胞组学简介
我们知道生命过程是建立在细胞时空动态调控的基础上的。比如,胚胎发育过程中,随着时间推进,细胞不断分裂、分化、成熟;其过程同时也受到空间信息的调控,比如周边细胞的细胞间通讯。最小的生命单位是细胞,我们可以对细胞进行测序来研究其动态变化过程。05 年左右兴起的 bulk 测序以其高通量的优点迅速成为生命科学领域的重要研究手段,并大大推动了该领域的研究进展。bulk 测序往往是将一群细胞混合在一起测序,难以捕捉细胞间可能存在的异质性。
2022-09-17 11:04:01 1737 1
翻译 TogoID - 生物医学数据库ID转换工具
现有ID转换工具存在支持的数据库范围有限,难以加入新的ID转换,对应ID的生物意义不清晰,不提供可用API等问题。TogoID项目通过扩大数据库范围,定义本体明确描述ID之间关系,基于云托管的数据定期更新,构建了友好的web界面和API,满足了ID转换的各类需求。:当需要多个步骤转换时,对应实体在源数据库,中间数据库和目标数据库中的种类并不相同,此时需要仔细查看。当有多个可能的来源时,需要点选,然后右侧可显示目标关联数据库。包含基因,转录本,蛋白,结构,化合物,信号通路,疾病和文献等48个数据库。
2022-09-10 09:47:47 421
原创 线性回归模型(OLS)3
本文是系列文章的第三篇。前两篇文章中:本文将介绍线性回归模型的模型评估。包括以下 4 个小节:1. 模型评估2. 示例:mtcars 数据集3. 模型推导4. 附录代码
2022-09-03 09:57:17 2976
原创 线性回归模型(OLS)2
本系列文章基于R语言中lm函数的输出,介绍线性回归模型的例子和原理。本文是系列文章的第二篇,将介绍线性回归模型中的一些常见假设以及基于这些假设对回归系数的检验。
2022-08-04 19:21:01 2176
原创 线性回归模型(OLS)1
本系列文章基于R语言中lm函数的输出,介绍线性回归模型的例子和原理。本文是系列文章的第一篇,将介绍线性回归模型的定义并给出一个R语言的示例。线性回归模型是我们日常工作中处理数据时经常使用的一种基础模型。...
2022-08-04 19:13:53 8019
原创 R语言作图——Beeswarm plot拓展
从2018开始,小仙开始在公众号上分享R语言作图系列的文章,虽然是龟速更新,但到现在也是有了不少文章,常见的图表类型也画差不多了。可能R语言作图系列会有结束的一天,但小仙目前还是想继续写下去,目前小仙的思路是先把初级教程完善,尽量达到一号在手、美图我有的状态, 然后在此基础上提供一些图形拓展的思路, 拓展系列的教程不会那么详细,但会尽量保障大家在结合初级图形教程的基础上能够画出来。想告诉大家的是,虽然我们更新很慢,但是我们没有弃号,还在坚持啊啊啊!如果大家有什么图形想要画,但暂时有困难的,欢迎来信!上.
2022-04-02 20:29:56 987 2
原创 R语言作图——Beeswarm plot(蜜蜂图)
原创:黄小仙今天…当小仙又打下"今天"这两个字的时候,小时候每天一篇日记的恐惧好像又回来了,过去这么久,我的文学功底果然没有一点长进!今天给大家分享的图来自于Nature Biotechnology上的一篇文章。Nature系列的文章就不用多说了,无数科研人心中的神刊,一篇Nature文章需要耗费大量的心血和经费。不过小仙想提醒大家一下,当你中了Nature,除了高兴之外还要留一下,文章发表还要再花一笔巨款。如果选择OA发表,版面费是€9500,换成人民币要66880元,不得不说这是个很吉利的数字啊
2022-03-23 15:06:39 2809 1
原创 R语言作图——Circular bar plot(环形柱状图)
原创:黄小仙不知不觉,距离小仙上次发文已经过去五个多月了。R语言作图系列的更新频率跟理想中的一月一次差别有点忒大了,不得不让小仙陷入深深的反思,对于时间的规划也有了一些新的感悟。不知道大家有没有跟我一样的感受啊,举些例子:放学、下班或者放假之后先把学习任务扔在一边,心想着,我先玩会游戏,等会玩够了再做;网上看到一篇干货满满的文章,先点收藏,心想着,等我有空的时候再仔细看看;听说身边的朋友利用空余时间做了什么了不起的事情,心想着,等我有空了,我也可以试一试;…这样的例子数不胜数了,哈哈,小仙常想
2022-02-03 11:31:15 5283
原创 有趣有用的PCA——PCA压缩图片
PCA是数据降维的经典方法,本文给出了一个将PCA用于图片压缩的例子,并探索了标准化处理(normalization)对PCA的影响。文末还讨论了PCA推导第一主成分的过程。PCA (Principal component analysis,主成分分析) 是一个经典的数据降维方法,可以将高维数据映射到低维空间中,使得低维空间中点在新坐标轴(主成分)上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析,其中当然也包括生物数据的分析。讲解PCA的文章数不胜数,本文旨在作为一个学习笔记,不对PCA.
2021-10-03 10:32:59 9317 5
原创 R语言作图——3D scatter(3D散点图)
原创:黄小仙它来了它来了,它顺着网线走来了…哈哈,今天小仙给大家带来的是3D散点图。强调一下啊,咱们这个教程里第一次出现了3D图,第一次出现了交互式图形(简单粗暴的理解为,你点击,图会动)今天主要给大家介绍一下plotly这个R包,顺便分享下3D散点图的画法。plotly是一个在线的数据分析和可视化工具,具有图表类型丰富、可交互等等一堆优点,关键是它还有相应的R包和Python包。R包的绘图风格是这个样子的,是不是还挺好看!如果大家想画交互式图形,可以试试这个plotly包。不过目前小仙对
2021-08-08 11:51:53 5351
原创 R语言作图——Line plot with colored background
原创:黄小仙看我今天给大家带来了什么?美貌与智慧并存的折线图这个图看起来很简单哈,但是画起来稍微有点繁琐,小仙马上又要开始唠叨模式,希望对大家能有所帮助。Step1. 绘图数据的准备首先还是要把你想要绘图的数据调整成R语言可以识别的格式excel中保存成csv格式。数据的格式如下图:Step2. 绘图数据的读取data<-read.csv(“your file path”, header = T) Step3.绘图所需package的调用library(ggplot2)S
2021-07-23 15:15:46 1042
原创 R语言作图——Scatter plot with marginal density
原创 :黄小仙大家好呀,今天小仙分享图是这个样子滴,边缘带有密度图的散点图。Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。作图数据格式如下:(今天偷懒啦,直接借用了iris数据集)Step2. 绘图数据的读取data <- read.csv(“your file path”, header = T, check.names = F)#注释:header = T表示数据中的第一行是列名,如果没有列名就用hea
2021-03-08 09:05:55 1857
原创 R语言作图——Dumbbell plot(哑铃图)
原创:黄小仙又是一年春来到,小仙祝大家在新的一年开开心心、顺顺利利!今天给大家分享的图是哑铃图(Dumbbell plot)。Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。作图数据格式如下:Step2. 绘图数据的读取data <- read.csv(“your file path”, header = T, check.names=F)#注释:header=T表示数据中的第一行是列名,如果没有列名就用hea
2021-02-14 20:05:22 4063 2
原创 R语言作图——Slope chart(坡度图)
原创:黄小仙今天小仙给大家分享一下Slope chart(坡度图)的画法,我在paper中看到的图是这样的这个图的意思大概是Nasal Tissue比Brochial Tissue的ACE2表达量高(ACE2就是新冠病毒的受体啦) 。为了复刻这张图,小仙捏造了一组差不多的数据,竟然感觉比原图好看!废话不多说,进入正题。Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。作图数据格式如下:Step2. 绘图数据的读取dat
2020-12-03 10:34:09 3212
原创 R语言作图——Split violin plot
原创:黄小仙最近小仙同学在好几篇文献里看到了这种小提琴图,暂时就肤浅地认为这是作者为了更好地比较对照组与实验组的差别,所以将同一个基因的小提琴图各画了一半,放在一起。为了跟上可视化的潮流,小仙也来尝试画一下这个没查到正经名字的图。Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。作图数据格式如下:Step2. 绘图数据的读取data<-read.csv(“your file path”, header = T)#注
2020-10-26 13:44:52 3767 7
原创 R语言作图——Violin plot with dot (小提琴图+点图)
原创:黄小仙小提琴图之前已经画过了,不过最近小仙又看到一种貌美的画法,决定复刻一下。文献中看到的图如下:Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。作图数据如下:Step2. 绘图数据的读取data<-read.csv(“your file path”, header = T)#注释:header=T表示数据中的第一行是列名,如果没有列名就用header=FStep3. 绘图所需package的安装、
2020-09-27 16:05:48 10077 8
原创 R语言作图——Line plot with error
原创:黄小仙为了画今天的这个图,小仙决定凭空想象一台可以实时监控基因表达水平的设备,成功得到了这么一组数据。想要画的图是这样子滴。Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。Step2. 绘图数据的读取data<-read.csv(“your file path”, header = T)#注释:header=T表示数据中的第一行是列名,如果没有列名就用header=FStep3. 绘图所需package
2020-08-30 22:41:48 1018
原创 R语言作图——Ridgeline plot(山脊图)
原创:黄小仙今天给大家介绍一下Ridgeline plot(山脊图)的画法。作图数据如下:Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。Step2. 绘图数据的读取data<-read.csv(“your file path”, header = T)#注释:header=T表示数据中的第一行是列名,如果没有列名就用header=FStep3. 绘图所需package的安装、调用library(resh
2020-07-24 22:05:06 11972 1
原创 cython初体验
本文是笔者第一次使用cython的一个小结笔者最近参与了一个项目,其目的是提升一个python程序的运行速度。其中一个手段就是利用cython来优化原来的python代码。笔者之前没有接触过cython,所以这次属于在实践中学习新知识。现在项目告一段落,所以笔者对自己使用cython的经验做一个小结,以便将来参考。文章较长,分为以下几个小节:对cython的基本认识2. 使用cython所需准备的知识和技能储备cython的安装cython的语法和文件cython代码的编译cython.
2020-06-11 10:17:57 345
原创 浅谈python中的多线程和多进程(二)
本文继续分享一个关于python多线程和多进程区别的例子前文《浅谈python中的多线程和多进程》中我们分享过一个例子,就是分别利用python中的多线程和多进程来解决高运算量的任务,从中看出二者的一些区别。其中一点是“多线程会共享所属进程的内存资源;而子进程会从父进程那里拷贝一份内存资源”。当时没有进一步解释,为了更直观地了解这一点,本文给出一个例子。我们用python分别创建多线程和多进程,然后打印出其中的变量和函数的id。这里的id是指python中对象的唯一标识符,可以通过id(obj)函数.
2020-06-03 10:25:35 390
原创 浅谈python中的多线程和多进程
本文以一个简单的例子介绍python中多线程和多进程的差别。我们在进行生信分析时经常要处理大文件,如果用串行运算往往费时,所以需要并行运算以节省时间。目前,流行的生信工具通常都可以并行运算,比如bwa。通常来讲,我们进行并行运算可以选择多线程或者多进程。那么二者有什么差别呢,我们又该如何选择呢?不同编程语言中的多线程和多进程实现机制是不一样的,其实我们不关心实现机制,我们关注的是实际的性能...
2020-03-29 11:26:37 601
原创 生信(11)htslib处理bam或sam文件的简单示例
本文给出了一个示例,介绍如何使用htslib编写c程序来处理bam/sam文件。(本文写于2020年初,随着将来htslib和samtools库的更新,本文部分内容可能会不适用,请读者注意官网的更新动态。)我们通常会使用samtools软件来处理bam/sam文件。但有时候我们也需要对bam/sam文件进行一些个性化的处理,这个时候就需要自己编写程序。从samtools的github官网...
2020-03-20 11:02:06 2192 1
原创 R-概率统计与模拟(六)重要性采样
本文介绍了重要性采样(Importance Sampling)。本文篇幅较长,分为以下几个部分:重要性采样是什么重要性采样的应用示例不同的q(x)对结果有影响吗?Part1:重要性采样是什么前文《R-概率统计与模拟(三)变换均匀分布对特定分布进行抽样》和《R-概率统计与模拟(四)拒绝抽样》分别介绍了两种方法,可以根据已知的p.d.f.进行采样(抽样),使得采样得到的点符合目标分...
2020-02-19 10:04:37 2850 1
原创 R语言模拟疫情传播-RVirusBroadcast
原创:hxj7本文用RVirusBroadcast展示模拟的疫情数据本文篇幅较长,分为以下几个部分:前言效果展示小结附录:RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候!!!”**,该视频用模拟的疫情数据告诉大家“不要随便出门(宅在家)”对战胜疫情很重要,生动形象,广受好评。所用的程序叫...
2020-02-15 16:54:06 3161 2
原创 R语言模拟疫情传播-gganimate包
本文用gganimate包展示模拟疫情数据本文篇幅较长,分为以下几个部分:前言效果展示小结附录:代码前言前文《R语言模拟疫情传播-RVirusBroadcast》已经介绍了一种用R语言模拟疫情传播的方法,不过当时为了实时模拟数据(没有事先准备好的数据集可用)的动态展示效果,笔者在RVirusBroadcast中使用的是R中的基础作图功能,在本文中我们将用gganimate包来...
2020-02-15 10:17:43 4319
原创 R语言作图——Dot plot(点图)
原创:黄小仙2020开年不凡, 生活果然充满了惊吓,可仍然要期待惊喜呀。今天要给大家介绍的是点图(Dot plot),点图展示的数据比较简单,但胜在好看啊。作图数据如下:Step1. 绘图数据的准备首先要把你想要绘图的数据调整成R语言可以识别的格式,建议大家在excel中保存成csv格式。Step2. 绘图数据的读取data<-read.csv(“your file pat...
2020-02-09 20:15:24 23350
原创 生信(十)利用kseq.h和regex.h实现类似grep查找fastq reads功能的示例(C语言)
本文给出了一个利用kseq.h和regex.h实现类似grep查找fastq reads功能的示例(C语言)。引出问题做生信的朋友应该都很熟悉类Unix系统中的grep命令,该命令可以快速查找并输出包含目标字符串的行。在对fastq文件进行处理时,我们有时候需要查找包含特定字符串的reads。因为一个reads包含了多行,所以grep命令不能完全适用。那有没有其它命令或者工具可以实现快速简...
2020-02-05 14:58:57 699
原创 生信(九)生信代码中的位操作
本文介绍了生信代码中用到的一些位操作。我们知道,0和1构成的二进制充斥着计算机语言的世界。一般来说,我们对二进制可以操作的最小单位就是一个bit(位)了,一个bit要么是0,要么是1。在编写代码的过程中,如果我们能了解一点位操作,有时可以简化代码、提高效率。这一点对于生信的编程同样适用。应用一:列举k-mer比如,在《算法(三)列举所有k-mer的组合》一文中,笔者曾经分享过一段代码,...
2020-01-29 11:03:53 525
原创 R-概率统计与模拟(五)彩票连号、归纳法以及二项分布
多个独立且符合同一个伯努利分布的变量的和服从二项分布多个独立且符合同一个伯努利分布的变量的和服从二项分布这是一个基础的结论。我们可以用模拟其 p.d.f.\text{p.d.f.}p.d.f. 或者 c.d.f.\text{c.d.f.}c.d.f. 来看:模拟p.d.f.\text{p.d.f.}p.d.f.,用R语言中的 hist 函数画出模拟的概率直方图。图1模拟c.d.f.\...
2019-12-24 15:50:47 1666
原创 用R画带ErrorBar的分组条形图
用R画带ErrorBar的分组条形图本文介绍了如何用R画出带error bar的分组条形图。笔者近期画了一张带error bar的分组条形图,将相关的代码分享一下。感谢知乎网友青山屋主的建议,提示笔者要严谨区分技术重复和生物学重复,所以笔者对文章做修改后重发。如果各位有任何建议,欢迎指正。本文旨在给出一种利用R对生物学重复数据画带error bar的分组条形图的方法。所用数...
2019-12-06 10:29:53 4162 1
转载 Python+selenium自动下载xml或exe文件
本文介绍了用 Python + selenium 的方式从网络上自动下载 xml/exe 文件。笔者最近在写一个小工具,需要从pubmed上批量下载包含文献信息的xml文件。很明显,这是一个爬虫任务,笔者选用了python+selenium的组合。代码写好后运行一切都很顺利,直到最后Chrome出现了警告信息,提示我是否要保留文件:用Chrome下载一般的文件,如txt文件是不会有警告的...
2019-11-28 14:10:36 1039
原创 R语言作图——Pie chart(饼图)
原创:黄小仙今天要给大家介绍的Pie chart(饼图),本来是不打算写这个的,因为用Excel画饼图实在是太方便了。本着能少动一下是一下的懒人原则,是不打算用R画的,再说,本小仙不是掌握了R作图大器ggplot2么,实在需要用的时候我就一句ggplot()+geom_pie()不就搞定了。结果后来用Excel画饼图调整颜色、大小的时候着实有些崩溃。习惯了几句代码就出图之后,没有办法再忍受手...
2019-11-17 20:53:46 23381 4
原创 R语言近期记录(201911)
本文是笔者近期使用R语言的一个简单记录。ggplot2 手动调整线条颜色主要是用到scale_color_manual函数,举例来说:下面代码是生成一幅折线图,但是线条颜色是软件自动设置的。n <- 5x0 <- 1:ny1 <- x0 + 10y2 <- x0 + 20y3 <- x0 + 30d <- data.frame(x=past...
2019-11-13 15:33:01 772
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人