统计
awk_bioinfo
向前进。
展开
-
edgeR提供的TMM归一化算法详解
egdeR TMM归一化算法转载 2022-07-13 15:38:24 · 1129 阅读 · 0 评论 -
一文搞懂R(相关系数)与R^2(决定系数)
R与R^2没有关系,就如同标准差与标准误差没有关系一样。相关系数(R)定义:变量之间线性相关的度量。分三种, pearson(有秩),spearman(无秩), kendall。公式:公式解释:自变量X和因变量Y的协方差/标准差的乘积。协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。因此,相关系数是一种特殊的协方差。决定系数(R^2)定义:对模型进行线性回归后,评价原创 2022-04-11 16:17:28 · 49337 阅读 · 3 评论 -
在R中删除矩阵中含有0的行
在R中删除矩阵中含有0的行介绍如下三种方法:#方法一:A = sapply(1:nrow(A),function(x) if(all(A[x,])!=0) A[x,])#方法二:x[!as.logical(rowSums(dat==0)), ]#方法三:dat[dat==0] <- NAna.omit(dat)原创 2022-01-23 11:38:35 · 8194 阅读 · 2 评论 -
R 绘图中显示数学公式及公式嵌入变量
使用expression函数:expression()单独使用:expression()中的下标为[],上标为^,空格为~,连接符为*。示例代码如下:expression(Sigma~x[2]~x^2~'m'*'n'*~Sigma~y^2)expression()与 paste() 结合:expression(paste((frac(1, m)+frac(1, n))^-1, QQ[paste(m, ',', n)]))使用bquote可内嵌变量:bquote('Adj.R^2='原创 2021-10-14 16:08:39 · 795 阅读 · 0 评论 -
详解富集分析超几何分布检验
R进行超几何分布计算超几何分布是统计学中的一种离散分布,它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数。 也是生物信息学中常用的一种统计分布模型。我们在GO,KEGG的富集分析时就采用的是这个模型。 其数学表达式如下:f(k;n,m,N)={{{m \choose k}{{N-m} \choose {n-k}}} \over {N \choose n}}.其中:N: 总样本数m: 总样本中“特定类别”的数量n: 从总样本中随机抽取的数量k: 抽取样本中属于“特定类别”的数量原创 2021-09-17 15:10:10 · 3652 阅读 · 1 评论 -
pandas读入数据修改列名
1.读入数据:import pandas as pddf1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=1)df1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=-1) # 用于读取无表头CSV文件2.修改列名方法一:暴力修改列名,即重新命名列名df1.columns=[‘a’,‘B’,‘c’]方法二,利用rename修改(注需加入inplace=True才会在原数据中生效)d原创 2021-09-16 15:33:58 · 3908 阅读 · 2 评论 -
data.table大数据处理高效R包
在数据处理量较大的时候,最为头痛的就是数据的读写、运算效率。 data.table处理大数据集(数据文件达到以1G为单位)时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数(filter、group_by、mutate、summarise),数据量在上100万左右,稍微复杂的计算差距就特别明显。 但对于复杂的数据如何还尚未试验。data.table包除了处理速度快外另一个有点是代码简洁。1、fread函转载 2021-07-26 12:03:35 · 309 阅读 · 0 评论 -
Python计算皮尔逊相关系数
Python三种方法计算皮尔逊相关系数(Pearson correlation coefficient)0 皮尔逊系数1 python计算方法1.1 根据公式手写1.2 numpy的函数1.3 scipy.stats中的函数0 皮尔逊系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs)。用于衡量两个变原创 2020-06-19 17:07:55 · 9679 阅读 · 0 评论 -
遗传图谱构建及QTL定位的基础知识详解
遗传图谱构建及QTL定位的基础知识点基因定位最有效且最常用的方法就是构建遗传连锁图谱进行基因定位,该方法对于数量性状和质量性状的基因定位都适用。今天,小编简单讲解一下遗传图谱构建及QTL定位的一些基本知识点。质量性状:指能观察但不能测量的性状,同一种性状的不同表现型之间不存在连续性的数量变化,而呈现质的中断性变化。多由一对或少数几对基因控制。比如,花药的有无、芒的有无、血型、子粒的颜色等。其杂交后代的个体可根据性状明确分组,遗传关系简单,一般服从三大遗传定律。数量性状:指个体间表现的差异只能用数原创 2020-09-19 15:16:40 · 16709 阅读 · 7 评论 -
QTL不同定位软件的比较和概念解释
QTL不同定位软件的比较从目前研究看,动植物的表型性状大多是有多基因控制的数量性状,而寻找这些数量性状基因在染色体上的位置的方法就是QTL定位。利用高密度遗传图谱进行QTL定位,是现在最为高效、准确的方法之一,而进行QTL定位的软件多种多样,在进行具体分析时如何选择也经常困扰着研究者。今天,小编就来说说几款常用软件的区别,这样当我们有一张图谱的时候才能知道哪款软件最适合,话不多说,干货如下。今天要比较的软件有MapQTL、R/qtl、QTL IciMapping和WinQTLCart四款,下面先对每个软原创 2020-09-19 13:51:25 · 7231 阅读 · 0 评论 -
pandas用法详解
一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1))df = pd.DataFrame(pd.read_excel(‘name.xlsx’))3、用pandas创建数据表:df = pd.DataFrame({“id”:[1001,1002,1003,转载 2020-09-17 09:55:57 · 6822 阅读 · 0 评论 -
mummer基因组共线性分析详解
在生物信息中,基因组共线性分析dotplot图几乎全部是用MUMmer或者LAST做的。相比对LAST,MUMmer生成的图似乎更加美观和详细,last-plot会可能会省略一些过长的id,而mummerplot会全部写出来。MUMmer的安装1.1 安装MUMmer主程序前,需要先安装gnuplot:从gnuplot的官网http://www.gnuplot.info/ 链接到其sourceforge下载页。注意:最新版的gnuplot v5.2.6在后续运行时与MUMmer4可能不太兼容,会原创 2020-09-08 14:09:47 · 13524 阅读 · 0 评论 -
快速开平方根算法
快速开平方根算法人们很早就在Quake3源代码中发现了类似如下的C代码,它可以快速的求1/sqrt(x),在3D图形向量计算方面应用很广float invSqrt(float x){float xhalf = 0.5 * x;int i = (int)&x; // get bits for floating valuei = 0x5f3759df - (i >> 1...转载 2020-04-13 15:37:58 · 1403 阅读 · 0 评论 -
各种统计检验及r语言实现
1.单正态总体的检验方差已知,检验均值:Z检验z.test():BSDA包,调用格式:z.test(x, y = NULL, alternative = “two.sided”, mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)x,y为样本数据,单样本时忽略y;alternative选择检验类型;mu为检验的均值;sigm...原创 2019-09-02 21:28:55 · 6710 阅读 · 0 评论