自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 收藏
  • 关注

原创 理解非参数检验和零分布

今天给大家写写“非参数检验”(Nonparametric Test)。这个东西对应的就是参数检验,我们学的用的多的都是参数检验,两者的根本区别是啥,有什么优势,什么时候用非参数检验,是今天要写的问题。之前我们写过t检验,假设我们想比较一个班里男生的平均身高和女生的平均身高,有没有差异。用t检验就行,是吧,两组均值比较用t检验,我们就是这么学的,也是最先学的用来比较两组平均数差异的工具。t检验有一个前提假设的,就是:所比较的这两组数据,要服从正态分布。

2026-03-06 17:06:56 12

原创 理解ITT分析和PP分析

今天写写在临床试验、公共卫生研究、和很多社会科学实验里都会遇到的一对名词:ITT 分析(, 意向性治疗分析)和 PP 分析(, 按方案分析)。今天来捋捋它们为什么会出现、背后代表的科学思想、各自适合回答什么样的问题。假设我们做一个干预实验,研究“每天早起一小时,学习成绩会不会更好”。把学生随机分成两组:实验组必须早起,对照组照常生活。很简单的实验奥。实施的时候会发生什么?肯定会有人在实验组里“掉链子”,没能坚持早起;也会有人在对照组里“自发”加入早起的行列。这其实就是 ITT 和 PP 的核心分歧。

2026-03-06 17:05:46 21

原创 理解数据缺失的机制

缺失值”是大家都绕不过去的,今天写写缺失值的原理,标准叫法叫做缺失值的机制。就是缺失值不是单纯的“没有数据”,它啥有不同的成因的。统计学家Donald Rubin在1976年提出了一个非常有影响力的框架,叫做缺失数据机制(Missing Data Mechanism)。他把缺失分为三大类:MCAR、MAR和MNAR。第一类叫MCAR。什么意思呢?就是数据的缺失和我们研究的变量没有关系。举个例子,你们在做早餐调查的时候,有一个同学正好问卷掉在地上,被风吹走了一页,所以他那一页的数据全没了。

2026-03-06 17:03:38 9

原创 理解单侧检验

今天写写“双侧检验”和“单侧检验”。这两个东西上课的时候老师会提,但肯定不会去深入讲奥,研究设计的时候写写,到底是用双侧呢还是单侧呢,反正最后一股脑好像都是默认做的双侧,这其中的区别和逻辑还是值得好好捋捋的。被嫌烦嗷,我们还是要回顾下假设检验的过程,把假设检验的过程再走一遍:假设我有一家游戏公司,开发了一款新的游戏,想知道这个新游戏能不能提高玩家的平均游戏时长。找了一群玩家,随机分成两组:一组玩老游戏,一组玩新游戏。然后我们记录他们一周的平均游戏时长。

2026-03-05 15:00:50 8

原创 理解数据加权与IPTW方法

写重点之前我们还是先捋捋啥是数据加权,之前的文章有讲抽样,我们从一大堆数据里(总体)挑出一小部分数据(样本)来研究,目的是希望能用这一小部分数据来代表整体。但很多时候,我们抽出来的样本,或者说我们手头的数据,它不一定能完全代表我们想研究的那个“整体”。举个例子:班级考试假设班里有100个同学,其中男生50个,女生50个。期末考试完了,老师想知道咱们班这次的平均分是多少。如果老师把所有同学的分数都加起来除以100,那肯定就是真实平均分,没毛病。

2026-02-14 10:32:33 35

原创 理解置信区间

今天写写“置信区间”(置信区间要和抽样一起理解,大家看这篇文章的时候推荐也把前面的看了。先看一个最简单的问题。假设有10000名学生,我想知道,这些学生的平均身高,怎么办,我可以把这10000名学生都量一遍,然后算出一个的平均值。很对,但太费劲了,几乎不可能。必须要考虑换一种方法,我去抽样看看。比如,我从这10000名学生里,随机抽取100个学生,然后测量他们的身高,算出这100个学生的平均身高。我算出来是175厘米。好,现在问题来了。这个时候,我能说,我们学校所有学生的平均身高就是175厘米吗。

2026-02-11 09:17:37 19

原创 理解相加交互作用及判断指标

今天给大家写相加交互作用。平时我们说的交互作用默认指的是相乘交互,相乘交互作用理解起来也容易,但是相加还是比较少的或者大家也不会怎么去纠结区别,今天我们一起来捋捋相加交互作用、后面会梳理下相加和相乘的区别。希望给大家一些启发。相加还是相乘?概念上理解起来还是比较容易的。假设我们要研究吸烟和饮酒对肝癌风险的影响。我们有四类人:• 不吸烟、不饮酒的人,这是我们的基准线,他们的肝癌风险是比如万分之一。• 只吸烟、不饮酒的人,他们的肝癌风险升高了,比如是万分之三。

2026-02-10 09:23:27 19

原创 理解有向无环图DAG

今天写有向无环图,简称DAG。这个东西在梳理病因关系、避免混杂偏倚的时候有点用,但是不多,也来讲讲。核心是帮大家搞懂三个问题:第一,DAG到底是什么,为啥要用到它?第二,DAG的核心要素规则怎么理解?第三,怎么用DAG解决问题?

2026-02-10 09:22:07 23

原创 理解混杂变量与协变量

混杂变量(confounder)是那类在观察到的自变量(通常我们说的处理或暴露变量)与因变量起到共同影响的变量。举个简单的例子:你在研究吃药对血压的影响,但患者的年龄、体重、运动习惯这些因素也会影响血压。若年龄同时影响是否吃药(也就是说年龄和是否吃药之间存在某种关联),并且年龄也直接影响血压,那么年龄就成了一个混杂变量。协变量(covariate)这个词在统计学里有多层含义,可以理解为:在分析模型里被用来解释因变量、用于分解误差、帮助提高估计精度的变量,且它们本身不是我们要研究的处理变量。

2026-02-05 08:55:17 1025

原创 理解累积风险函数

今天写写累积风险函数,是之前有粉丝后台留言的,一个同时要和“时间”与“风险”联系起来东西。英文叫。理解这个首先要理解瞬时风险。假设你正在参加一场超级马拉松比赛,终点远在天边。在你跑的过程中,每一秒钟,你都可能崩溃退赛。那么,在比赛开始的第一分钟,你退赛的可能性大,还是在跑了五个小时之后的某一分钟,你退赛的可能性大?肯定是跑了五个小时之后啊!为什么呢?因为疲劳在累积,身体损伤在叠加。这个“每一秒钟瞬间崩溃的可能性”,在统计学就是“瞬时风险率”,而。注意是累积风险不是累积风险函数哦。

2026-02-05 08:54:42 36

原创 理解t检验、t值与自由度

今天写“t检验”。这个大家也都是很熟悉的。用的也相当多,两组均值比较用t检验,背的基本滚瓜烂熟。还是写一写,看看有没有些新的启发。先看一个特别简单的场景。假设你是一家制药公司的研究员,你们研发了一款新药,声称可以降低血压。现在,你想知道这个药到底有没有效果。你知道,正常人的平均血压是120。你做了一个实验:找了一组志愿者,让他们服用这个新药一段时间,然后测量他们的血压。结果发现,这组志愿者的平均血压是115。好,现在问题来了:你能直接下结论说,“新药有效,因为它让平均血压降到了115”吗?

2026-02-04 09:16:31 25

原创 伯努利试验与二项分布的理解

今天写写二项分布,伯努利试验,我记得这些高中其实就有学,只不过那个时候根本不知道学着有啥用奥,只知道死记硬背。

2026-02-04 09:15:34 102

原创 理解方差分析,组内变异与组间变异

今天写写方差分析,很简单的方法,大家都会用,都知道什么时候用,也都用的挺溜,看看能不能写出点新意,启发大家。

2026-02-04 09:15:01 25

原创 理解抽样常见的方法

今天写写 “抽样方法”。研究设计绕不开抽样方法,论文中也必须要写,这个文章主要是让大家记住理解常见的抽样方法有哪些。以及不同方法的优缺点。到时候设计研究方案的时候想的起来用。

2026-02-04 09:14:25 34

原创 假设检验的逻辑及过程中涉及到的概念

今天写假设检验。希望对大家理解假设检验过程中涉及的相关概念能有帮助。

2026-02-04 09:13:41 25

原创 理解概率密度曲线

今天写写 —— 概率密度曲线。为啥要有这个概念,做什么的,怎么才能记住。。这里要特别注意 “连续型变量” 这几个字,离散或者分类变量只有概率,连续变量才有概率密度,连续型指的是那些可以取无限多个值的变量,比如时间、身高、体重等等,理论上有无限种取值可能。连续数据是需要有种方法来描述其分布的,我们其实想知道虽然是连续的但是取那些值或者在哪些区间的可能性会高点。比如你会描述你上学的时间大概是30分钟左右,统计语言就是30分钟附近的区间取值概率最大。那为什么叫 “密度” 呢?可以把它想象成。

2026-02-04 09:13:02 26

原创 理解抽样分布与中心极限定理

今天继续给大家写 —— 抽样分布。之前写的时候提到过一个算全校学生体重的例子:如果想知道全校同学的平均体重,抽 10 个人算一次平均体重,再抽 10 个人再算一次,这两个平均值会一样吗?大概率不一样吧,就像你去超市买苹果,每次拿 5 个称重量,两次的平均重量大概率不一样。那这些不一样的样本均值,会不会有什么规律呢?有可能是会有规律的,想想我们是不是可以抽100次,抽1000次,这些抽取的样本均值是不是可能有某种特征,这就是抽样分布要回答的问题 —— 样本统计量(比如均值)的分布规律。

2026-02-04 09:12:23 29

原创 Z分数,标准化,标准正态分布

今天继续写三个关系特别亲密的概念,也是大家会经常听到的基础概念:标准化、Z score(也叫标准分)和标准正态分布。先看一个问题:如果小明数学考了 80 分,语文考了 70 分,能说他数学学得比语文好吗?仔细想想,可能会不行奥?因为咱们不知道这两门课的整体难度。万一数学全班平均分是 90 分,80 分其实是偏低的;而语文全班平均分是 60 分,70 分反而是高分。这时候直接比较 80 和 70 这两个原始分数,意义不大。那怎么才能公平比较呢?

2026-02-04 09:11:45 52

原创 理解样本均值和总体均值及其联系

今天接着上篇文章的内容,专门写写 “样本均值” 和 “总体均值”。我们已经知道了什么是总体、什么是样本,比如想知道全校同学的平均身高,全校同学的身高就是总体,随机抽 200 人的身高就是样本。那总体和样本的两个 “均值” 到底啥关系?为啥总用样本均值去猜总体均值?今天我们争取把这个写透。先复习两个词:总体均值和样本均值。总体均值,就是总体里所有数据的平均值,比如全校 3000 名同学,每个人的身高加起来除以 3000,得到的就是总体均值,一般用希腊字母 μ 表示。

2026-02-04 09:10:58 37

原创 理解样本、抽样误差等基础概念

今天给大家写写统计学上最基础的东西,怎么用一小部分数据,去猜一大群东西的情况。这个也是统计学在干的事情,我们一开始接触就会学的,也是统计推断的核心。就是样本推断总体。先问一个问题:你去水果摊买橘子的时候,会怎么挑?我猜奥,是不是先拿起一个剥开尝尝,甜的就多买两斤?不甜就少买或者不买,哎,这就是最朴素的 “样本推断总体” 思想!你尝的那一个橘子,就是 “样本”,那一筐橘子就是 “总体”。通过尝样本的味道,来推断整筐橘子甜不甜。

2026-02-04 09:06:21 23

原创 R数据分析:有调节的中介与有中介的调节的整体介绍

单独的有调节的中介或者有中介的调节好多同学还大概能看明白,但是两个东西一起说我发现大部分同学就懵逼了。今天我就尝试将两种方法一起讲讲,重点帮助大家厘清两种方法的异同。调节变量(moderator)通过中介变量(mediator)间接影响因变量(outcome)。下图就是一个典型的。关注的是下图就是一个典型的有调节的的中介作用模型(当然也不是唯一的):所以说,有调节的中介模型在总体上是不要求有调节作用。关注的是。换句话说,中介变量的“传递机制”并不固定,而是受调节变量的影响。

2025-01-18 22:54:37 2562

原创 R数据分析:多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型,结局有三个类别,做的模型包括多分类逻辑回归、随机森林和决策树,多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的,后面两种模型报告了混淆矩阵,审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了,刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。

2025-01-07 20:58:28 1223

原创 R数据分析:多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型,结局有三个类别,做的模型包括多分类逻辑回归、随机森林和决策树,多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的,后面两种模型报告了混淆矩阵,审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了,刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。

2025-01-07 20:57:56 1590

原创 R机器学习:神经网络算法的理解与实操,实例解析

神经网络算法是一种模仿生物神经网络(尤其是人脑)结构和功能的算法。它由大量相互连接的节点(称为神经元)组成,这些神经元组织成层,通过传递信号来处理信息。神经网络算法在机器学习、人工智能等领域中扮演着至关重要的角色,尤其擅长处理复杂的模式识别、分类和预测问题。今天给大家介绍下这个算法。回忆一下高中生物知识,高中的时候我们学过生物神经元:生物神经元通过树突接收信号,通过轴突发送信号。神经元之间通过突触连接,信号的强弱由突触的“强度”控制。在人工神经网络中,人工神经元模拟了生物神经元的工作原理。它也接收多

2025-01-03 21:11:25 914

原创 R数据分析:工具变量回归的做法和解释,实例解析

前几天看了个视频,是2024年诺贝尔经济学奖得主在分享自己的研究,研究问题是“制度如何形成并影响经济繁荣”,在研究这个问题的时候他的PPT中提到研究的统计过程中用到了工具变量,想着再次大家介绍一下这个方法。说不定利用这个方法,哪天我的读者里面也出个诺贝尔奖得主呢,哈哈哈。你通过数据发现,冰淇淋销量高的月份,溺水人数也比较多。你可能会得出“吃冰淇淋导致溺水”的结论吗?显然不合理。这里存在一个“”——。所以,冰淇淋销量和溺水人数之间并非直接的因果关系,而是都被气温这个共同的因素所影响。

2024-12-25 21:31:39 1814

原创 R机器学习:决策树算法的理解与实操

今天继续给大家介绍决策树算法,决策树本身是一种非常简单直观的机器学习算法,用于做分类或回归任务。它就像我们平常做决定时的过程,通过逐步排除可能的选项,最终得出结论。一个典型的决策树的决策过程如下图:可以看出来决策树至少有两个优点:一是决策树的结构就像一棵树,每个节点代表一个属性测试,每条边代表一个测试结果,叶子节点代表最终的分类结果。这种结构非常符合人类的思维方式,让我们很容易理解模型是如何做出决策的。二是通过观察决策树,我们可以清晰地看到哪些特征对分类结果影响最大,从而帮助我们更好地理解数据。

2024-12-23 20:47:28 620

原创 R机器学习:朴素贝叶斯算法的理解与实操

那么这个时候算法就会告诉我们这个水果就是香蕉。上面就是算法的整个过程,细心的同学估计会有疑问橘子的概率为0,只是因为所有训练数据中结局为橘子的个案long这个特征没有出现真(某一个证据似然概率为0),朴素贝叶斯算法涉及到相乘的话造成了结果为0。在这个只有3个特征的数据集中看起来这个结果无可厚非,长橘子本身好像现实中也不存在。

2024-12-18 19:50:27 1146

原创 R数据分析:网状meta分析的理解与实操

meta分析之前有给大家写过,但是meta分析只能比较两个方法。经常是被用来证明在现有研究中显示矛盾结果的干预方法到底有没有效的时候使用,通过证据综合得到某种干预到底有没有用的结论。但是如果我要证明好几种方法到底哪个最优,这个时候meta分析就不行了,我们得使用网状meta。网状meta的原理和meta没有区别,可以进行多个干预的同时分析。一个研究直接对A、B两种干预进行比较,这个叫做直接证据;

2024-04-10 21:10:12 2716 1

原创 R数据分析:非劣效性研究设计的统计处理方法,原理和实例

在我们经常接触的统计模式中,我们是在寻求推翻原假设,证明差异,这种统计模型在传统的临床试验中,在各种统计推断中已经成为默认了。在传统的临床试验中通常会将一种新的治疗方法与标准治疗或安慰剂进行比较,从而证明这种新治疗具有更好的疗效,这类试验的原假设是这两种治疗方案的治疗效果没有差异。如果统计分析拒绝这一假设,说明这两种治疗的疗效是有差别的,即出现统计学上差异性展示出显著的P值,这个时候就证明了我们的研究目的。但是,当我们开发新药或者新的治疗方法的时候,这个时候我们的目的可能。

2024-01-27 21:53:29 1939

原创 R数据分析:集成学习方法之随机生存森林的原理和做法,实例解析

很久很久以前给大家写过决策树,非常简单明了的算法。今天给大家写随机(生存)森林,随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。

2023-11-23 21:29:42 3117 3

原创 R数据分析:净重新分类(NRI)和综合判别改善(IDI)指数的理解

对于分类预测模型的表现评估我们最常见的指标就是ROC曲线,报告AUC。比如有两个模型,我们去比较下两个模型AUC的大小,进而得出两个模型表现的优劣。这个是我们常规的做法,如果我们的研究关注点放在“”,这个时候ROC就常常会显得力不从心,因为通常加入一个变量AUC不会有太大的变化,且AUC不好解释。这时,就需要用到我们今天要讲的综合判别改善指数IDI, 净重分类指数NRI指标。

2023-11-08 20:07:30 2950

原创 R数据分析:反事实框架和因果中介的理论理解

理论上定义各种效应的表达确实没问题,但是这些效应都是两个反事实情况的差值,在实际情况下我又不能同时观测到两个反事实,那么这些基于反事实框架定义出来的中介效应值又如何算呢?这个时候依然需要建模做预测(一个预测m的模型和一个预测y的模型),模型出来了后,我们可以利用模型得到每个个案的反事实结果,这样就可以得出直接效应和间接效应了。和传统中介不同的是这些模型不是服务于效应分解的,是用来估计反事实结果的。就是根据原来数据模拟预测然后得到个案的反事实结果,再根据反事实结果,得到中介的效应分解。

2023-10-31 20:24:05 1141

原创 R数据分析:解决科研中的“可重复危机”,理解Rmarkdown

Rmarkdown能输出的文件类型非常多,帮助你完成的任务非常多,比如下面这一大堆:做个PPT,写个Shiny应用都可以:这些功能强烈鼓励大家自己去探索一番,我们今天给大家介绍了基础操作。然后重点就放在学术论文的可重复危机角度,重点给大家介绍Rmarkdown学术论文写作和帮助大家理解Rmarkdown能结局科研重复危机的逻辑。

2023-06-22 21:48:41 1057

原创 R数据分析:多项式回归与响应面分析的理解与实操

今天给大家分享一个新的统计方法,叫做响应面分析,响应面分析是用来探究变量一致性假设的(Congruence hypotheses)。本身是一个工程学方法,目前在组织行为学,管理,市场营销等等领域中使用越来越多。响应面分析尤其是在探究一致性和不一致性作用的时候是最佳选择,就是说比如你有两个自变量,一个因变量,你想看看如果这两个自变量都同时一致性变化(同时增大或减小)和同时不一致变化(一个增大另一个减小)的情况下,因变量如何变化。这个时候一定记得使用响应面分析。

2023-06-01 18:50:16 3139 2

原创 R数据分析:生存数据预测模型的建立和评价(二)timeROC与决策曲线

上篇文章依照的一篇文章给大家写了生存数据预测模型评价的C指数、校准曲线和模型验证结果的做法,其实生存数据预测模型的评价方法还有很多,本期接着往下看。

2023-05-09 20:44:17 3202 1

原创 R数据分析:生存数据的预测模型建立方法与评价

之前写了生存分析列线图的做法,列线图作为一个预测模型可视化工具,我们使用它的过程其实就是一个给新数据做预测的过程,其内在本身的模型就是我们基于现有数据训练的一个预测模型,今天也算是接着上一篇文章继续写生存分析的预测模型的效果评价。生存数据预测模型和我们之前写的连续变量结局和分类结局的预测模型不同的地方就在于我们得考虑生存数据的删失和时间因素,通过这么一个预测模型,

2023-04-18 20:24:40 1278

原创 R数据分析:生存分析的列线图的理解与绘制详细教程

列线图作为一个非常简单明了的临床辅助决策工具,在临床中用的(发文章的)还是比较多的,尤其是肿瘤预后:找个公开数据库做生存分析出个列线图,然后出个文章是很多临床同学可以依赖的较容易的实现路径,之前有给大家介绍过列线图,今天开始再给大家比较详细地写写生存分析列线图系列,希望可以对大家有帮助。

2023-03-30 20:28:21 1426 2

原创 R数据分析:做量性研究的必备“家伙什”-furniture包介绍

今天学习别人的代码,看到将table1和tidyr一起写出来的代码真的太方便太简洁了。而且看到furniture这个包就是开发出来给医学和社会科学的量性研究者用的,这不正对胃口嘛,于是整理一下furniture包的一些知识,分享给大家。

2023-03-02 20:25:25 619

原创 R数据分析:跨层中介的原理和做法,实例操练

之前有同学问过我211模型,没听过这个词,感觉怎么有这么不严肃的名字,偷偷去查了查,211模型,其实就是嵌套数据的中介的情形之一。根本上讲还是属于多水平模型的路径分析(用多水平模型跑回归也可以做中介,但其不在本文讨论范围,本文主要关注多水平结构方程multilevel structural equation modeling MSEM框架下的中介做法)。然后偷偷整理了下这方面的内容,今天刚刚好给大家写一些这方面的内容,希望对大家有所帮助。

2023-02-23 19:16:08 1476 2

原创 R机器学习:重复抽样在机器学习模型建立过程中的地位理解

在做机器学习项目的时候,一开始我们会将数据集分为训练集和测试集,要记住建模过程中肯定有模型调整,必然涉及到模型挑选的问题,当过程中我需要做很多个模型时,问题来了,如果我不去评估我怎么知道哪一个模型是最好的?想想在利用测试集之前,怎么也得加上一个评估过程,帮助我们确定,到底哪个模型才是最好的,才是值得最终被用到测试集上的。这个过程就涉及到重复抽样了resampling!

2023-02-10 18:55:10 1022

科研统计中有调节的中介和有中介的调节分析方法的R语言代码示例

包括数据模拟和出图整套代码无缝运行

2025-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除