![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学
文章平均质量分 62
All_Will_Be_Fine噻
所有事物的最终都是美好的,如果不好那就是还没到最后。
展开
-
GSA、GSEA、ssGSEA、GSVA用到的统计学知识点
D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。原创 2024-03-08 12:55:46 · 1059 阅读 · 0 评论 -
频数表和列联表,以及进一步处理分析 -- R
数据框包含了一些分类变量,问?原创 2024-01-11 16:57:43 · 532 阅读 · 0 评论 -
单因素方差分析--R
三个剂量水平的药物处理受试者,每个剂量水平十个受试者,现在收集到数据后,问:药物剂量水平显著影响受试者的response?或者不同剂量药物处理受试者有显著效果的差异吗?原创 2024-01-09 16:26:48 · 644 阅读 · 0 评论 -
R -- 常用的聚合函数
先分组后处理分组后的每一个变量。原创 2023-04-20 11:47:12 · 141 阅读 · 0 评论 -
R -- readr学习
readr包数据读取速度要快,尤其是数据量大的时候。首先我用utils基础包中的read.table函数读取一个大约6Gb的文件然后使用readr 包的read_csv函数读取同一个文件没作者说的那么夸张:快~10X – 100X,但是也确实快速然后使用readRDS函数读取该文件对应的RDS文件还是RDS文件读取的快,但是你需要先读取原始文件到内存再保存成RDS文件,下一次才可以读取RDS文件。原创 2023-04-20 11:05:00 · 236 阅读 · 0 评论 -
R -- dplyr学习
dplyr包主要的五个函数以及工作目标。翻译 2023-04-19 17:55:27 · 57 阅读 · 0 评论 -
R -- 时序分析
滞后阶数时序的自相关ACk即一些列观察测值(Yt)和K时期之前的观测值(Yt-k)之间的相关性比如,AC1就是1阶滞后序列与0阶滞后序列之间的相关性k构成的图即为自相关图(ACF图)stats包中的acf()函数或者forecast包中的Acf()函数可以生成ACF图时序的偏相关差分就是将序列中的观测值Yt变为 Yt-1- Yt自回归项AutoRegressive, AR项移动平均项Moving Averages, MA项验证序列的平稳性。原创 2023-04-18 16:04:50 · 362 阅读 · 0 评论 -
R -- 如何处理缺失数据
如何理解输出的数据框:1代表未缺失,0代表缺失。原创 2023-04-18 09:27:17 · 396 阅读 · 0 评论 -
R -- 二分类问题的分类+预测
分类大致分为有监督分类和无监督分类,这里学习有监督分类。有监督分类一般包括逻辑回归、决策树、随机森林、支持向量机、神经网络等。有监督学习基于一组包含预测变量值和输出变量值的样本单元。然后可以将全部数据分为一个训练数据集和一个验证数据集,其中训练数据集用于建立预测模型,验证数据集用于测试模型的准确性。这里将通过 rpart、rpart.plot和party包实现决策树模型和可视化通过randomForest包拟合随机森林通过e1071包构造支持向量机通过glm函数实现逻辑回归。原创 2023-04-15 15:50:58 · 2873 阅读 · 1 评论 -
R -- 包管理与安装
【代码】R -- 包管理与安装。原创 2023-03-20 15:17:10 · 202 阅读 · 0 评论 -
R -- 层次聚类和划分聚类
聚类分析是一种数据归约技术,旨在揭漏一个数据集中观测值的子类。子类内部之间相似度最高,子类之间差异性最大。至于这个相似度是一个个性化的定义了,所以有很多聚类方法。最常用的聚类方法包括层次聚类和划分聚类。每个聚类方法都有优缺点,甚至聚类的时候出现不存在的类,这些方法最好是对照使用。原创 2023-04-14 19:09:08 · 1618 阅读 · 0 评论 -
R -- 用psych包做因子分析
因子分析又称为EFA,是一系列用来发现一组变量的潜在结构的办法。它通过寻找一组更小的,潜在的结构来解释已观测到的显式的变量间的关系。这些虚拟的、无法观测的变量称为因子(每个因子被认为可以解释多个观测变量间共有的方差)人话版:开豪宅,住豪车,戴名表 可以归因为 有钱(当然有钱还可以继续归因)。开豪宅,住豪车,戴名表 这些变量是显式的,而有钱是潜在的隐式的可以解释显式变量的因子。原创 2023-04-13 14:56:24 · 901 阅读 · 0 评论 -
R -- 用psych包做主成分分析
主成分分析是一种数据降维方式,他将大量相关变量转化为一组很少的不相关的变量,这些不相关的变量称为主成分。人话版:给你发一个由18位数字组成的身份证号码,第1、2位数字表示所在省份的代码;第3、4位数字表示所在城市的代码;第5、6位数字表示所在区县的代码;第7-14位数字表示出生年、月、日;第15-17位数字为顺序码,表示同一区域内同年同月同日出生的顺序号,其中第17位数字表示性别,奇数表示男性,偶数表示女性;第18位数字是校检码,校检码可以是0-9的数字,有时也用x表示,X是罗马数字的10。原创 2023-04-13 11:39:25 · 1592 阅读 · 0 评论 -
R -- 自助法
brief下面这段话对我的触动很大,其他统计数怎么估值boot包中的自助法原创 2023-04-11 16:01:20 · 55 阅读 · 0 评论 -
R -- 置换检验
如果数据来自理论分布,t检验,u检验当然适用,如果违反了统计假设怎么办,这时候参数检验就不太适用了?例如,数据抽样于未知或者混合分布,样本量过小,存在离群点等。原创 2023-04-11 15:24:06 · 217 阅读 · 0 评论 -
R -- 方差分析实战部分
在生物统计学中有对应的纯理论部分,。原创 2023-04-10 17:25:52 · 452 阅读 · 0 评论 -
R -- 广义线性模型
其中affairs的中位数和平均数很有意思,假设不存在“回避/逃避”情况以及乱写的情况,还真是有第一次就有很多次。将Affairs$ynaffair变量作为回归的因变量:其中回归系数是否显著性不等于0的检验中,性别,孩子,教育程度和职业显著性较低。所以将其去除后利用其他变量回归试试看这里可以比较下两次回归模型的拟合程度有没有显著性的差异,可以使用anova函数比较嵌套模型,或者使用AIC函数比较赤池信息准则。原创 2023-04-07 16:43:21 · 81 阅读 · 0 评论 -
R -- 线性回归
等式 y =ax + b,就是一个简单线性回归方程,解释变量x与因变量y的关系可以用一个等式表达或者说变量x可以解释变量y,变量x每变动1个单位,y就有预计会变动a个单位,也可以说就有一个变量y与之对应(其实是一个y总体的平均数)原创 2023-04-03 16:17:07 · 1346 阅读 · 0 评论 -
R -- 卡方检验--原理及应用
R * C 列的独立性检验 自由度等于 df = (row -1) (columu - 1) = (R-1) (C-1) = RC - R - C + 1 不需要进行矫正。2 * 2 列的独立性检验 自由度等于 df = (row -1) (columu - 1) = (2-1) (2-1) = 1 需要对卡方值进行矫正。2 * C 列的独立性检验 自由度等于 df = (row -1) (columu - 1) = (2-1) (C-1) =C -1 不需要进行矫正。如何理根据列联表推算论值。原创 2023-04-02 18:26:34 · 421 阅读 · 0 评论 -
R -- 描述性统计分析
拿到一个数据想看看他大概长什么样子,多少变量,多少缺失值,多少分组变量等等像一些数值变量的均值,方差,极差,分布情况等等像因子型变量的频数像一些数据对象如何组织的或者属性有哪些?原创 2023-04-01 17:17:29 · 57 阅读 · 0 评论 -
ggplot2 -- 我只想做个散点图
ggplot函数主要是指定数据集,参数data传入,ggplot函数没有视觉输出,需要几何函数geom来完成视觉输出– aes()函数主要是指定数据中的变量承担什么角色,通过x,y传入坐标轴,以及group,fill,color,shape传入分组变量,size传入尺寸等– geom_point()函数向“画布”上做了散点图,呈现出视觉效果– labs()可添加注释:主标题,子标题,xlab,ylab。原创 2023-03-31 15:08:14 · 649 阅读 · 0 评论 -
ggplot2 -- theme函数
ggplot 接受数据框aes 接受数值变量和因子变量,并映射到坐标轴labs 简单的修改了一些标签geom 几何函数输出视觉效果stat 统计函数背后默默干着事theme 则控制着“画布”,除了上述受到data影响的其他元素,theme几乎都可以更改theme函数狭义上可以认为一个接口,传递参数就可以修改视觉效果的主题风格。theme函数其实还包括了一些包装好的主题,例如theme_grey()就是默认出现的主题。原创 2023-03-31 12:39:05 · 756 阅读 · 0 评论 -
相关性系数理论部分
转载 2023-03-28 10:33:23 · 45 阅读 · 0 评论 -
直线回归理论部分
注意:散点图表示有很强的线性关系,也可以做线性回归分析,但是不一定表示两个变量有因果关系。转载 2023-03-27 18:46:22 · 40 阅读 · 0 评论 -
统计推断 -- 简述
来自正态分布的样本平均数的分布符合N(μ,σ^2/n),即使总体分布不符合正态分布,抽样次数足够大时,样本平均数的分布也符合正态分布。假设检验又称为显著性检验,根据总体的理论分布和小概率原理,对未知或者不完全知道的总体提出两种对立的假设,然后根据样本统计数进行计算,统计推断是 依据总体理论分布(u分布、t分布、二项分布、泊松分布、卡方分布、F分布等),从样本的统计数对总体的参数做出推断。统计可以分为两块,一是统计描述,就是你的数据长什么样子,二是统计推断,就是根据你的数据讨论下理论总体长什么样子。翻译 2023-03-27 16:14:10 · 544 阅读 · 0 评论 -
变量的理论分布模型
从正态总体中进行随机抽样,组成抽样的变量具有随机性,所以抽样的平均数以及方差,标准差也是不固定的。但是多次抽样后,样品的平均数呈现有规律的正态分布。样品平均数的分布符合正态分布 N(μ,σ^2/n),其中 n是样本容量可以用来判断样本是否属于总体,或者两个样本是否属于同一个总体从两个正态总体中进行抽样,样本平均数之间的差值也属于正态分布 N(μ1 - μ2,σ1^2/n1 + σ2^2/n2)可以用来判断两个样本是否属于独立的正态总体。原创 2023-03-27 14:14:23 · 492 阅读 · 0 评论 -
R -- 相关性系数实战篇
cor.test()和cor()rcorr() {Hmisc}corr.test() {psych}测试部分==> 相关系数(correlation coefficient)用于描述两个变量之间的相关程度。一般在[-1, 1]之间。包括:pearson相关系数:适用于连续性变量,且变量服从正态分布的情况,为参数性的相关系数。spearman等相关系数:适用于连续性及分类型变量,为非参数性的相关系数。==> 在本次笔记中仅讨转载 2022-05-11 10:09:33 · 552 阅读 · 0 评论 -
方差和标准差
方差和标准差原创 2022-02-25 11:11:06 · 1047 阅读 · 0 评论 -
协方差与皮尔森相关性系数
协方差定义随机变量X、Y 的协方差Cov(X,Y):Cov(X,Y) = E[(X-E(X))(Y-E(Y))] = E[XY] - E[Y]E[X]从直观上来看,协方差表示的是两个变量总体误差的期望。意义表示两个变量的变化趋势一致性大小。如果X与Y是统计独立的,那么二者之间的协方差就是0。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。相关性系数是归一化后的协方差:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(im原创 2022-02-23 18:22:17 · 240 阅读 · 0 评论