公众号Codewar原创作者-CSDN博客

原创文献解读：有监督的机器学习在心理学上的应用

最近看了一篇论文，写的比较系统，也比较基础，对复习强化有作用，顺便写下来分享给大家，文献原文贴在下面：温馨提醒大家，文献中有所有提到方法的数据和代码，所以愿意钻研的同学自己可以去下载尝试的，有些东西你不动手，光看是学不会的。

2026-04-16 15:54:15 432

原创理解标准均差，进而理解效应量

今天给大家写写标准均差（Standardized Mean Difference），很常见的一个效应量指标奥。通过理解标准均差这个简单的特例进而能理解效应量这个概念。

2026-04-16 15:53:14 7

今天给大家写写线性回归中的共线性。什么叫“共线性”？为什么共线性会是问题，如何解决。学线性回归的时候老师肯定会讲做线性回归的时候，回归模型假设自变量之间是相对独立的——也就是说，每一个自变量都提供一份独立的信息，帮助解释因变量的变化。这个是能做线性回归的前提。但是很多的时候我们做的时候其实也没太在意。比如你是一个公司的市场分析师，老板让你分析影响产品销量的因素。你收集了两个变量：一个是广告投入金额，另一个是广告投放次数。你把这两个变量放进线性回归模型里，结果一跑——模型报错，或者说系数不稳定，有时候甚至方向

2026-04-16 15:52:44 10

原创理解多重校正的逻辑和校正的时机，并不是任何时候都要校正

今天给大家写写多重校正，第一次遇到这个问题是两组比较用t检验，多组比较不能用t检验去两两比较了。为啥呀？记得我当时上学的时候也理解不了，想不通。这个问题我觉得主要还是一般的教材讲的不是按么顺，很多只是说两两比较不行，会增加错误率，却很少把其中的逻辑仔细捋捋。我们做的假设检验，有5%的门槛，就是我们说的显著性水平，这个是每做一次都会有的。这个之前文章写过。也就是说每一次检验我们默认都接受5%的错误率。试图通过多次检验想说明一个结论必然会增加错误率。其实只要明白这句话就够了。我们看例子，来扮演一个侦探，要解决一

2026-04-16 15:52:19 12

原创理解p-hacking，先有结论，再找证据，必须找到阳性结果

今天写——p-hacking。这个涉及到基本上每个人的科研过程。先来一个简单的场景。假设你是一个科学家，你觉得吃苹果对记忆力有帮助。你怎么证明这个？最科学的方法就是做个实验。你找来两组同学，一组每天吃苹果，另一组不吃。一个月后，你给他们做记忆力测试，然后比较两组的成绩。结果出来了，你用一个叫做p值的东西来说明结果。这个p值是什么呢？之前的文章有详细写过，就是你观察到的两组之间的差异，有多大的可能性是纯粹的巧合。咱们约定俗成，如果p值小于0.05，我们就认为这个差异不太可能是巧合，它很可能是有真实意义的。咱们

2026-04-16 15:51:20 6

原创理解统计调整和混杂，进而理解分层分析和多因素分析

统计调整这个概念刚学多因素分析的同学理解起来好像也有点困难，想想这个东西本来就这样，你也没去做干预，怎么就能调整呢，我还记得当时我也是这么想过的，今天就来写写调整奥，希望能帮助大家理解这个概念。调整这个东西还真不是直接去调它，得和模型一起去理解，比如，我想研究一个事：喝咖啡和得心脏病有没有关系？你说这还不简单，找一群人，看看他们喝不喝咖啡，然后统计一下得心脏病的人数不就行了？研究完了，发现喝咖啡的人，得心脏病的风险更高，是不是就立马得到结论：“哇，那以后我少喝点咖啡了，这玩意儿不健康！”其实我们还是要进一

2026-04-16 15:50:55 6

原创用统计效能规划你的研究

今天写统计效能（Statistical Power）这个概念。大家接触这个的时候主要是算样本量的时候奥，啥叫统计效能，很多同学说是在算样本量的时候才听到这个东西，但是我觉得这样的逻辑总是不对，肯定是将统计效能的重要性给忽略了。今天这篇文章希望能进一步帮助大家理清楚统计效能这个概念。

2026-04-16 15:50:24 6

原创理解比例风险假设

今天给大家写写比例风险假设（Proportional Hazards Assumption）。大家学COX模型的时候都听过，有些同学在用COX模型的时候也会想到去看看是不是满足这个假设，但是这个假设到底是什么逻辑，到底说的是什么，怎么看是否满足很多同学依然抓脑壳。今天看看这篇文章，一起来捋捋。开始之前，先来回顾一下生存分析是干啥的。是研究一个事件从开始到发生，这个过程到底有多长。比如，从诊断癌症到病人去世，这段时间有多长；或者从一个新产品上线到它第一次出故障，这段时间有多长。

2026-04-16 15:49:57 11

原创理解相对危险度（RR）和比值比（OR）及其关系

今天接着写两个在流行病学和医学研究里头，特别常见的两个概念：相对危险度（Relative Risk, RR）和比值比（Odds Ratio, OR）。本来都是挺简单的，本质就是比较，比较在不同情况下的概率或者几率。好多同学理解起来还是有困难，希望能给大家一个比较容易的版本。来经典例子：抽烟会不会增加得肺癌的风险？方法一：找一群抽烟的人，再找一群不抽烟的人，然后过几年，看看哪组得肺癌的人多不就行了？恭喜你，队列研究（Cohort Study）你会了。跟着两群人走，看他们最终的结果。

2026-04-16 15:49:26 8

原创理解生存数据和删失

今天给大家写写“生存数据”和“删失”。生存数据总是依赖于时间的，理解起来和别的结局还是有些差别，希望本文能让大家对相关概念理解的更深刻。看一个实际的情形，我研发了一款治疗肺癌的新药，想知道这个药能让患者多活多久。做了一个临床试验。找了10个肺癌患者，用这个新药，记录他们从用药开始，到去世的时间。10个人的生存时间都记录下来了，比如：3个月，5个月，8个月，12个月，15个月，18个月，20个月，25个月，30个月，35个月。这个时候，把这10个数据加起来，除以10，不就是这个药的平均生存期了吗？

2026-04-16 15:45:49 244

原创理解非参数检验和零分布

今天给大家写写“非参数检验”（Nonparametric Test）。这个东西对应的就是参数检验，我们学的用的多的都是参数检验，两者的根本区别是啥，有什么优势，什么时候用非参数检验，是今天要写的问题。之前我们写过t检验，假设我们想比较一个班里男生的平均身高和女生的平均身高，有没有差异。用t检验就行，是吧，两组均值比较用t检验，我们就是这么学的，也是最先学的用来比较两组平均数差异的工具。t检验有一个前提假设的，就是：所比较的这两组数据，要服从正态分布。

2026-03-06 17:06:56 34

原创理解ITT分析和PP分析

今天写写在临床试验、公共卫生研究、和很多社会科学实验里都会遇到的一对名词：ITT 分析（, 意向性治疗分析）和 PP 分析（, 按方案分析）。今天来捋捋它们为什么会出现、背后代表的科学思想、各自适合回答什么样的问题。假设我们做一个干预实验，研究“每天早起一小时，学习成绩会不会更好”。把学生随机分成两组：实验组必须早起，对照组照常生活。很简单的实验奥。实施的时候会发生什么？肯定会有人在实验组里“掉链子”，没能坚持早起；也会有人在对照组里“自发”加入早起的行列。这其实就是 ITT 和 PP 的核心分歧。

2026-03-06 17:05:46 67

原创理解数据缺失的机制

缺失值”是大家都绕不过去的，今天写写缺失值的原理，标准叫法叫做缺失值的机制。就是缺失值不是单纯的“没有数据”，它啥有不同的成因的。统计学家Donald Rubin在1976年提出了一个非常有影响力的框架，叫做缺失数据机制（Missing Data Mechanism）。他把缺失分为三大类：MCAR、MAR和MNAR。第一类叫MCAR。什么意思呢？就是数据的缺失和我们研究的变量没有关系。举个例子，你们在做早餐调查的时候，有一个同学正好问卷掉在地上，被风吹走了一页，所以他那一页的数据全没了。

2026-03-06 17:03:38 47

原创理解单侧检验

今天写写“双侧检验”和“单侧检验”。这两个东西上课的时候老师会提，但肯定不会去深入讲奥，研究设计的时候写写，到底是用双侧呢还是单侧呢，反正最后一股脑好像都是默认做的双侧，这其中的区别和逻辑还是值得好好捋捋的。被嫌烦嗷，我们还是要回顾下假设检验的过程，把假设检验的过程再走一遍：假设我有一家游戏公司，开发了一款新的游戏，想知道这个新游戏能不能提高玩家的平均游戏时长。找了一群玩家，随机分成两组：一组玩老游戏，一组玩新游戏。然后我们记录他们一周的平均游戏时长。

2026-03-05 15:00:50 18

原创理解数据加权与IPTW方法

写重点之前我们还是先捋捋啥是数据加权，之前的文章有讲抽样，我们从一大堆数据里（总体）挑出一小部分数据（样本）来研究，目的是希望能用这一小部分数据来代表整体。但很多时候，我们抽出来的样本，或者说我们手头的数据，它不一定能完全代表我们想研究的那个“整体”。举个例子：班级考试假设班里有100个同学，其中男生50个，女生50个。期末考试完了，老师想知道咱们班这次的平均分是多少。如果老师把所有同学的分数都加起来除以100，那肯定就是真实平均分，没毛病。

2026-02-14 10:32:33 50

原创理解置信区间

今天写写“置信区间”（置信区间要和抽样一起理解，大家看这篇文章的时候推荐也把前面的看了。先看一个最简单的问题。假设有10000名学生，我想知道，这些学生的平均身高，怎么办，我可以把这10000名学生都量一遍，然后算出一个的平均值。很对，但太费劲了，几乎不可能。必须要考虑换一种方法，我去抽样看看。比如，我从这10000名学生里，随机抽取100个学生，然后测量他们的身高，算出这100个学生的平均身高。我算出来是175厘米。好，现在问题来了。这个时候，我能说，我们学校所有学生的平均身高就是175厘米吗。

2026-02-11 09:17:37 44

原创理解相加交互作用及判断指标

今天给大家写相加交互作用。平时我们说的交互作用默认指的是相乘交互，相乘交互作用理解起来也容易，但是相加还是比较少的或者大家也不会怎么去纠结区别，今天我们一起来捋捋相加交互作用、后面会梳理下相加和相乘的区别。希望给大家一些启发。相加还是相乘？概念上理解起来还是比较容易的。假设我们要研究吸烟和饮酒对肝癌风险的影响。我们有四类人：• 不吸烟、不饮酒的人，这是我们的基准线，他们的肝癌风险是比如万分之一。• 只吸烟、不饮酒的人，他们的肝癌风险升高了，比如是万分之三。

2026-02-10 09:23:27 29

原创理解有向无环图DAG

今天写有向无环图，简称DAG。这个东西在梳理病因关系、避免混杂偏倚的时候有点用，但是不多，也来讲讲。核心是帮大家搞懂三个问题：第一，DAG到底是什么，为啥要用到它？第二，DAG的核心要素规则怎么理解？第三，怎么用DAG解决问题？

2026-02-10 09:22:07 52

原创理解混杂变量与协变量

混杂变量（confounder）是那类在观察到的自变量（通常我们说的处理或暴露变量）与因变量起到共同影响的变量。举个简单的例子：你在研究吃药对血压的影响，但患者的年龄、体重、运动习惯这些因素也会影响血压。若年龄同时影响是否吃药（也就是说年龄和是否吃药之间存在某种关联），并且年龄也直接影响血压，那么年龄就成了一个混杂变量。协变量（covariate）这个词在统计学里有多层含义，可以理解为：在分析模型里被用来解释因变量、用于分解误差、帮助提高估计精度的变量，且它们本身不是我们要研究的处理变量。

2026-02-05 08:55:17 1077

原创理解累积风险函数

今天写写累积风险函数，是之前有粉丝后台留言的，一个同时要和“时间”与“风险”联系起来东西。英文叫。理解这个首先要理解瞬时风险。假设你正在参加一场超级马拉松比赛，终点远在天边。在你跑的过程中，每一秒钟，你都可能崩溃退赛。那么，在比赛开始的第一分钟，你退赛的可能性大，还是在跑了五个小时之后的某一分钟，你退赛的可能性大？肯定是跑了五个小时之后啊！为什么呢？因为疲劳在累积，身体损伤在叠加。这个“每一秒钟瞬间崩溃的可能性”，在统计学就是“瞬时风险率”，而。注意是累积风险不是累积风险函数哦。

2026-02-05 08:54:42 46

原创理解t检验、t值与自由度

今天写“t检验”。这个大家也都是很熟悉的。用的也相当多，两组均值比较用t检验，背的基本滚瓜烂熟。还是写一写，看看有没有些新的启发。先看一个特别简单的场景。假设你是一家制药公司的研究员，你们研发了一款新药，声称可以降低血压。现在，你想知道这个药到底有没有效果。你知道，正常人的平均血压是120。你做了一个实验：找了一组志愿者，让他们服用这个新药一段时间，然后测量他们的血压。结果发现，这组志愿者的平均血压是115。好，现在问题来了：你能直接下结论说，“新药有效，因为它让平均血压降到了115”吗？

2026-02-04 09:16:31 37

原创伯努利试验与二项分布的理解

今天写写二项分布，伯努利试验，我记得这些高中其实就有学，只不过那个时候根本不知道学着有啥用奥，只知道死记硬背。

2026-02-04 09:15:34 117

原创理解方差分析，组内变异与组间变异

今天写写方差分析，很简单的方法，大家都会用，都知道什么时候用，也都用的挺溜，看看能不能写出点新意，启发大家。

2026-02-04 09:15:01 36

原创理解抽样常见的方法

今天写写 “抽样方法”。研究设计绕不开抽样方法，论文中也必须要写，这个文章主要是让大家记住理解常见的抽样方法有哪些。以及不同方法的优缺点。到时候设计研究方案的时候想的起来用。

2026-02-04 09:14:25 49

原创假设检验的逻辑及过程中涉及到的概念

今天写假设检验。希望对大家理解假设检验过程中涉及的相关概念能有帮助。

2026-02-04 09:13:41 33

原创理解概率密度曲线

今天写写 —— 概率密度曲线。为啥要有这个概念，做什么的，怎么才能记住。。这里要特别注意 “连续型变量” 这几个字，离散或者分类变量只有概率，连续变量才有概率密度，连续型指的是那些可以取无限多个值的变量，比如时间、身高、体重等等，理论上有无限种取值可能。连续数据是需要有种方法来描述其分布的，我们其实想知道虽然是连续的但是取那些值或者在哪些区间的可能性会高点。比如你会描述你上学的时间大概是30分钟左右，统计语言就是30分钟附近的区间取值概率最大。那为什么叫 “密度” 呢？可以把它想象成。

2026-02-04 09:13:02 45

原创理解抽样分布与中心极限定理

今天继续给大家写 —— 抽样分布。之前写的时候提到过一个算全校学生体重的例子：如果想知道全校同学的平均体重，抽 10 个人算一次平均体重，再抽 10 个人再算一次，这两个平均值会一样吗？大概率不一样吧，就像你去超市买苹果，每次拿 5 个称重量，两次的平均重量大概率不一样。那这些不一样的样本均值，会不会有什么规律呢？有可能是会有规律的，想想我们是不是可以抽100次，抽1000次，这些抽取的样本均值是不是可能有某种特征，这就是抽样分布要回答的问题 —— 样本统计量（比如均值）的分布规律。

2026-02-04 09:12:23 39

原创 Z分数，标准化，标准正态分布

今天继续写三个关系特别亲密的概念，也是大家会经常听到的基础概念：标准化、Z score（也叫标准分）和标准正态分布。先看一个问题：如果小明数学考了 80 分，语文考了 70 分，能说他数学学得比语文好吗？仔细想想，可能会不行奥？因为咱们不知道这两门课的整体难度。万一数学全班平均分是 90 分，80 分其实是偏低的；而语文全班平均分是 60 分，70 分反而是高分。这时候直接比较 80 和 70 这两个原始分数，意义不大。那怎么才能公平比较呢？

2026-02-04 09:11:45 79

原创理解样本均值和总体均值及其联系

今天接着上篇文章的内容，专门写写 “样本均值” 和 “总体均值”。我们已经知道了什么是总体、什么是样本，比如想知道全校同学的平均身高，全校同学的身高就是总体，随机抽 200 人的身高就是样本。那总体和样本的两个 “均值” 到底啥关系？为啥总用样本均值去猜总体均值？今天我们争取把这个写透。先复习两个词：总体均值和样本均值。总体均值，就是总体里所有数据的平均值，比如全校 3000 名同学，每个人的身高加起来除以 3000，得到的就是总体均值，一般用希腊字母 μ 表示。

2026-02-04 09:10:58 117

原创理解样本、抽样误差等基础概念

今天给大家写写统计学上最基础的东西，怎么用一小部分数据，去猜一大群东西的情况。这个也是统计学在干的事情，我们一开始接触就会学的，也是统计推断的核心。就是样本推断总体。先问一个问题：你去水果摊买橘子的时候，会怎么挑？我猜奥，是不是先拿起一个剥开尝尝，甜的就多买两斤？不甜就少买或者不买，哎，这就是最朴素的 “样本推断总体” 思想！你尝的那一个橘子，就是 “样本”，那一筐橘子就是 “总体”。通过尝样本的味道，来推断整筐橘子甜不甜。

2026-02-04 09:06:21 36

原创 R数据分析：有调节的中介与有中介的调节的整体介绍

单独的有调节的中介或者有中介的调节好多同学还大概能看明白，但是两个东西一起说我发现大部分同学就懵逼了。今天我就尝试将两种方法一起讲讲，重点帮助大家厘清两种方法的异同。调节变量（moderator）通过中介变量（mediator）间接影响因变量（outcome）。下图就是一个典型的。关注的是下图就是一个典型的有调节的的中介作用模型（当然也不是唯一的）：所以说，有调节的中介模型在总体上是不要求有调节作用。关注的是。换句话说，中介变量的“传递机制”并不固定，而是受调节变量的影响。

2025-01-18 22:54:37 2609

原创 R数据分析：多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。

2025-01-07 20:58:28 1235

原创 R数据分析：多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。

2025-01-07 20:57:56 1604

原创 R机器学习：神经网络算法的理解与实操，实例解析

神经网络算法是一种模仿生物神经网络（尤其是人脑）结构和功能的算法。它由大量相互连接的节点（称为神经元）组成，这些神经元组织成层，通过传递信号来处理信息。神经网络算法在机器学习、人工智能等领域中扮演着至关重要的角色，尤其擅长处理复杂的模式识别、分类和预测问题。今天给大家介绍下这个算法。回忆一下高中生物知识，高中的时候我们学过生物神经元：生物神经元通过树突接收信号，通过轴突发送信号。神经元之间通过突触连接，信号的强弱由突触的“强度”控制。在人工神经网络中，人工神经元模拟了生物神经元的工作原理。它也接收多

2025-01-03 21:11:25 921

科研统计中有调节的中介和有中介的调节分析方法的R语言代码示例

空空如也