- 博客(30)
- 收藏
- 关注
原创 基于贝叶斯网络构建结构方程_TomatoSCI分析日记
R²越大,说明模型越能解释因变量的变化,比如R方=0.8,意味着模型可以解释80%的因变量变化,剩下的20%是模型未能捕捉到。还有一个点要避免的是,贝叶斯网络中箭头的系数只是两者之间的系数,而结构方程中箭头的系数是考虑了所有变量的系数,个人认为贝叶斯网络中的路径作为一个中间结果,我们只需关注其中变量的路径关系,系数可以不纳入分析。✦图5C的“~”匹配图中单向实线箭头的路径,表因果关系,p值小于0.05表示路径显著,系数关注正负,看正负影响;✦这是R的原始出图,非常粗糙,这里只介绍方法,美化就暂时先不做了。
2025-06-08 22:33:04
434
原创 贝叶斯网络_TomatoSCI分析日记
若节点有父节点,则条件概率表会显示该节点在不同父节点状态组合下的类别概率,通常以二维表形式呈现,清晰反映变量间的条件依赖关系。图5为高斯贝叶斯网络图,解读方式与离散型贝叶斯网络类似,由于采用高斯分布建模,网络中不再使用条件概率表,而是通过节点的均值和协方差矩阵描述变量间的条件依赖关系,如箭头上的系数就是代表两者关系的量化,如y指向x2,系数为0.3,意味着y每增加1个单位,x2条件期望(平均值)增加0.2个单位。离散型贝叶斯网络专为分类变量设计,要求所有数据变量均为分类变量(见图1)。
2025-06-06 23:32:37
600
原创 TomatoSCI数据分析实战:探索社交媒体成瘾
这部分其实就是聚类,因为我们要追求真实性,所以要把所有变量都纳入分析,但层次聚类和K-mean聚类都是针对连续变量的,因此在这里我们使用了Gower距离 + PAM 聚类的方法,聚类前使用轮廓系数确定聚类簇数(图4A)。以年轻本科女生为主,日均使用时间最长(5.64h),多使用Instagram,普遍认为影响学业,精神状态差、冲突多、成瘾程度最高,为典型的高风险群体。研究生男性居多,使用时间高(5.44h),以 TikTok 为主,学业受影响,心理状态一般,成瘾程度高,可能为娱乐性或被动沉迷的使用者。
2025-06-02 14:30:23
789
原创 TomatoSCI分析日记:数据分析为什么用csv不用excel
当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。
2025-05-31 10:57:41
717
原创 TomatoSCI分析日记——K均值聚类
上一篇文章讲了层次聚类,今天再来说一下K均值(K-mean)聚类。虽然说目的都是为了聚类,但是他们的原理和展示方式都截然不同。其工作原理是K均值聚类的核心原理是:先指定要分成K类,然后通过迭代优化,让每个点归到离它最近的类中心,最后让类中心尽可能地代表这一类的数据点。
2025-05-21 16:54:12
273
原创 TomatoSCI分析日记——聚类分析也许更适合你
聚类分析的任务就是:在这个空间中,找到“点群”——也就是彼此靠得很近的点,认为它们属于同一类。它适合用于探索性阶段,当你对数据一无所知,想看看“它们之间有没有天然分组”时,聚类是一把非常好的“望远镜”。聚类分析也是在做类似的事——只是它面对的不是衣服,而是一堆样本、特征、变量组成的多维空间中的“点”。聚类就是在用一把“看不见的尺子”,试图把“混在一起”的点,分成一堆一堆,让我们从杂乱中看出“秩序”。它没有像T检验那样的“p值”,因为它不是在判断“有没有差异”,而是在发现“存在多少种可能性”。
2025-05-17 23:37:54
348
原创 TomatoSCI分析日记——T检验
T检验适用于2组数据的对比。如需比较2组以上的数据,就需要引入多重比较方法。📍 多重比较将在下一篇详细讲解,敬请期待!TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。
2025-05-16 13:21:46
405
原创 TomatoSCI分析日记——不可忽视的交互作用
在统计模型中,“交互”描述的是一个变量的效应,是否依赖于另一个变量的水平。换句话说,X1 对 Y 的影响是否会因为 X2 的变化而改变?如果有,那就说明存在交互作用。🔍 举个直观例子:X1:是否服药(是/否)X2:年龄(连续变量)Y:治疗反应(数值型)你可能发现:对于年轻人,吃药效果显著;但对于老年人,吃药几乎没区别。这时候就存在一个交互作用 —— 药效随着年龄的不同而不同。很多科研数据背后的机制,其实并不简单线性——而是“在某些条件下有效,在另一些条件下无效”,这就是交互。
2025-05-15 22:52:25
1101
原创 TomatoSCI分析日记——降维降的是什么?
降维(Dimensionality Reduction),顾名思义,是在不显著损失信息的前提下,把数据从高维空间压缩到低维空间的过程。简单理解:把“复杂问题”转化成“可解释的核心变量”,让你更容易看见数据背后的结构。为什么我们要降维?📉 变量太多导致共线性严重(建模不稳定)📊 可视化困难(无法在二维、三维图上展示数据关系)🧠 信息冗余(多个变量重复表达同一概念)🛠️ 算法负担重(尤其在机器学习中,“维度灾难”是常见问题)科研中的降维,不是炫技,而是高维复杂问题中最值得掌握的洞察工具之一。
2025-05-13 11:34:33
1188
原创 TomatoSCI分析日记——关于多重共线性
共线性不会影响模型的“整体预测能力”,但会严重干扰“变量之间的因果解释”。也就是说,如果你只是为了预测,可以暂时容忍;但如果你要解释“哪个因素真正重要”,那你一定得先搞定共线性。TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。
2025-05-12 23:08:54
384
原创 TomatoSCI分析日记—主坐标分析(PCoA)
与t-SNE类似,可以简单地看为是一种聚类,但其更偏向于生态领域的应用,用于探究样品之间的物种组成相似性。想象一下,如果我们有一组样本,每个样本都有自己的特点,比如不同的物种组成。反之,如果它们在地图上距离很远,说明它们差异较大。在结果的可视化方面,基于本数据站位有分组的情况,我们需要看两项内容:PCoA1和PCoA2百分比之和(上限为100%,越高越好,表示的是数据变异程度);图1A是我们拿到手的一份数据,代表的是每一个站点的不同物种的个数,图1B是站位的一个归属,我们可以把不同分组看作不同区域。
2025-05-12 09:28:45
922
原创 TomatoSCI分析日记——t-SNE
与探索性聚类不同,验证性聚类的数据在一开始就已经分好组了,意思就是我测得了不同组的特征变量数据,随后反过来聚类并计算分类准确率验证这些特征能否准确对不同个体进行分类,如果准确率高说明这些特征是区分不同类群的关键特征,反之则需要重新寻找特征。从图3A和B我们可以看到,两个可以完全区分,说明这些特征是区分不同类群的有效特征。本文章从两个角度来介绍了t-SNE的两个用途,探索性聚类就是从未知中对他们进行区分,看重的是聚类的结果,而验证性聚类就是对已知内容进行检验,更看重分类的准确率。下面我们进入正题,看实例吧。
2025-05-11 18:07:04
507
原创 TomatoSCI分析日记——不要忽视效应量!
效应量衡量的是变量之间的实际影响大小,是“差异有多大”、“关系有多强”的直接度量。而p值,只是告诉你这个差异是不是“有可能是随机产生的”。举个例子:📌 实验A样本量1000,p=0.001,平均差异仅0.2📌 实验B样本量30,p=0.08,但平均差异高达2.5你觉得哪个更值得关注?前者“统计显著但差异极小”,后者“可能因样本不足而错过重要发现”。这就是只看p值会让你误判科学意义的原因。科研统计分析不是“有没有差异”,而是“差异值不值得信”。
2025-05-10 09:38:59
611
原创 TomatoSCI分析日记——为什么我们需要进行“多重比较校正”?
很多科研工作者在跑完方差分析(ANOVA)后,习惯性地进行事后多组比较(post hoc test),挑选LSD、Bonferroni 或 Tukey 法直接“找显著差异”。但很少人真正停下来思考一个关键问题:科研统计分析的核心,并不是“跑哪个检验”,而是明确你要控制的误差类型、范围和逻辑。我们平时设定显著性水平 α = 0.05,意味着每做一次假设检验,就有 5% 的可能性判断错误(假阳性)。这本身没问题,问题是:当你做很多次比较时,这种“犯错”的风险会迅速累积。假设你对一个数据集做了 20 组比较
2025-05-09 22:34:20
310
原创 TomatoSCI——PCA(主成分分析)
2.PCA通过提取主成分,可以发现变量之间共享的变化模式,这些模式可能揭示出潜在的系统性关系,而相关性只显示变量之间直接的线性关系,无法揭示多个变量共同作用的潜在模式。在数据方面,我们把各变量看作一种平等的关系,而不是像冗余分析一样有响应变量和解释变量之分,要注意的是,这些变量都要是连续变量(图1)。3.箭头长度(颜色深浅):箭头长度和颜色深度是一致的,当一个变量的箭头越长(颜色越深),那么它在样本之间的变异的主导性就越强。图3是输出的结果文件,呈现的是各个维度的解释比例以及各变量在各维度上的载荷。
2025-05-05 17:15:24
603
原创 TomatoSCI分析日记—岭回归
当我们有很多变量,但是这些变量都重要,一个都不能舍弃,那这个时候我们就不可以再用逐步和Lasso回归了。适合所有特征都有意义的情况。在图3中,我们可以看到两个λ值,靠左的是较为宽松的值,靠右的是较为严格的值,但由于岭回归不删除变量,因此通常只选择最佳的λ值也就是靠右的值。在图2中,通过最佳λ值可以确定各个变量的回归系数,通过回归系数可以得出回归方程,而R方则是判断回归的效果,越接近1代表回归效果越好。在图4中,展示的是不同λ值下的系数,这种没什么太多信息,就是把各个变量系数的变化过程展示出来。
2025-05-05 16:56:04
266
原创 TomatoSCI分析日记—Lasso回归
在Lasso 路径图中,我们可以在两个Log(λ)值处分别画两根竖线,可以看到小Log(λ)处变量还是有挺多变量的系数不为零的,但他们大部分系数较小,但是大Log(λ)值处只有两个变量系数不为零,这两个变量的系数都比较大(图3A)。与逐步回归的逐步不同,Lasso回归属于以“整体性”的方式进行特征筛选,大家可以理解为它有一个“筛选器”,这个筛选器会通过正则化把不重要变量的系数“压缩”至零,只保留对模型预测最为关键的特征,从而提高筛选效率。通过交叉验证生成的结果图,我们可以得到两个Log(λ)值(图2A)。
2025-05-05 13:55:48
273
原创 TomatoSCI分析日记——逐步回归2
接下来我们看看其他两个指标,步进法的AIC大于步减法,步进法的R方小于步减法,这说明步减法比步增法的拟合效果和解释能力更好。来到这里,基本上就可以比较出两种方法的优劣了,抛开拟合效果,回到研究本身,搞科研的目的是尽可能从数据中挖掘有用信息,因此保留的变量越多发现有用信息的概率越大。通俗来说,步进法就是从0开始,逐步完善模型,而步减法就是从包含所有变量的模型开始,削减变量从而完善模型。如果你需要一个很精简的模型,那就选择步进法,如果你想模型复杂一些,同时除去影响不大的变量,那就选择步减法。
2025-05-05 10:48:32
594
原创 TomatoSCI分析日记—逐步回归1
图1的ABCDE是逐步加入变量的过程,理解的思路就是,逐个变量去尝试,看加上哪一个变量的AIC值最低,比如在图1A中,加入变量SD后的AIC最低,因此首先选择SD;步进法:从一个无变量的空模型开始,将每一个独立变量分别引入模型中,计算引入后模型的表现,选择对模型改进最大的变量。每次增加一个变量后,继续测试其他变量,依次引入对模型解释力最有帮助的变量,直到没有新的变量能显著提升模型的拟合度为止。对于逐步回归模型,我们主要看三个指标:(1)AIC,是一种用于比较模型优劣的准则,值越小的模型解释力越好;
2025-05-04 23:14:14
579
原创 TomatoSCI分析日记——逻辑回归2
从结果中可知,两个分类变量的独立效应以及交互对因变量的变化是不显著的。没引入交互效应的部分以及连续变量的交互效应相信大家还是比较容易理解的,置于分类变量交互项的话大家可以理解为一个变化的过程,即变量A从0变为1的时候对因变量的影响,那么交互效应就是多个过程的叠加。图2加入了一个新的连续变量income,图2B是该模型的结果,把分类变量和连续变量分开看即可,对于分类变量就要考虑基准水平看p值,对于连续变量就直接看p值即可,结果表明,年龄组的变化并未显著影响成功的概率,收入与成功的相关也不显著。
2025-05-02 16:33:35
329
原创 TomatoSCI分析日记—逻辑回归1
我们先看图1,很简单的一个模型,y是分类变量,x是连续变量,由于逻辑回归模型是非线性的,所以没有R方和p值,我们直接看自变量的p值即可,小于0.05,说明自变量x对因变量y有显著影响。图3里,引入了x1、x2和x3之间的交互项,即x1:x2、x1:x3、x2:x3和x1:x2:x3,代表的是变量之间的相互作用,每个交互作用也可以看成一个新的变量。该文章内容比较简单,但是还是有要注意的地方的哦,就是逻辑回归只针对二分类问题,即因变量只有0和1两种分类,并不适用于多分类问题。自变量均为连续变量的交互项回归。
2025-05-02 13:49:26
145
原创 TomatoSCI分析日记—线性回归2
接着来看Coefficients的内容,在含有分类变量的回归中,会默认选择第一个分类作为基准,在本例子中基准为分类A,即当自变量为A时,p值小于0.05,估计值为58.667,当自变量从A变为B时,p值小于0.05,估计值为10.167,意味着当A变为B时,估计值增加了10.167,同理当自变量从A变为C时,p值小于0.05,估计值为-4.5,意味着当A变为C时,估计值增加了-4.5。Group C的估计值为 -16.63,p = 0.007,具有显著性,意味着当A变为C时,估计值显著降低。
2025-05-02 00:16:38
373
原创 TomatoSCI分析日记——线性回归1
模型结果如图4所示。例1:假如我有选择性指数和重要值两组数据(图3),用来构建一元回归模型,因为这是二维的,所以构建的回归模型我们可以把它可视化,加上置信区间,这样会更高级一点(图3)。有小伙伴可能会注意到area在引入交互项前面的显著性是不同的,这是因为交互项作为一个新的自变量,构建模型的时候会把这个新的自变量纳入分析,所以area的单独效应会被重新评估。上一篇文章讲了两个变量之间的相关性,但是当我们需要分析多个自变量与因变量的关系的时候,这种简单的相关性就显得捉襟见肘了,这时候就需要考虑线性回归模型。
2025-04-30 08:29:21
327
原创 TomatoSCI分析日记——相关性篇
例子2:如果我有5组学生各科的成绩:语文(a)、数学(b)、英语(c)、历史(d)地理(e)(图4A),我想用皮尔逊相关系数探索各组成绩之间的相关性,那我们只要计算出相关性和p值矩阵(图4B),这样哪两个变量存在显著相关性便一目了然了。生活习惯组:每天摄入的卡路里(d)、每周运动时长(e)和每天的睡眠时长(f)(图5A)。3.当两个变量之间有高度相关性时(接近1或-1),可能表示两个变量存在共线性现象,即呈现相似的变化趋势,同质化比较高,在建模中可能会影响模型的稳定性和解释能力。
2025-04-29 10:51:17
408
原创 TomatoSCI—正态性检验
检验数据正态性有3种常见方法:Shapiro-Wilk检验、Kolmogorov-Smirnov检验以及QQ图(图2)。当数据符合正态分布时,可以使用参数方法进行分析,反之则采用非参数方法。番茄用一个表格对比了参数方法和非参数方法的差异(图1)。以R为例展示检验结果(图3),图3A为Shapiro-Wilk检验结果,图3B为Kolmogorov-Smirnov检验结果,图3C为QQ图。建议采用的方法1和2,因为方法3的选择通常不多,而方法4需要考虑数据转换后的意义是否发生改变,需要对转换进行合理解释。
2025-04-29 08:46:37
289
原创 TomatoSCI分析日记—数据标准化
此外,一些算法在分析过程中对数值更大的变量或数据范围大的变量分配的权重更大,导致模型偏重于某些特征(图2)。这意味着,如果将左图的Y轴尺度调整为与X轴相同的尺度,我们会发现左图的聚类结果主要基于X2的差异,因为X2的原始数据范围很大,而X1的范围较小。经过Z-score标准化处理后,不同量级的变量被缩放到相同的尺度范围,使得在分析中每个变量的权重得到平等对待。标准化后的结果保持了原有的数据趋势,“大者仍大,小者仍小”的关系没有发生变化,但图表的可读性大大增强。保持原数据的分布特征,不会扭曲数据的相对差异。
2025-04-27 22:20:00
383
原创 TomatoSCI分析日记——数据清洗
在数据分析中,是不可或缺的一步。我们从各种渠道获取的数据,往往充满了缺失值、重复值、异常值、格式混乱、数据量级差异过大等问题。这些未经处理的数据通常杂乱无章,难以直接用于分析。数据清洗的目的,就是,为后续的统计建模、数据可视化等分析工作铺平道路。如果忽视数据清洗,后续分析过程中可能会遇到一系列令人头疼的问题。可能导致模型无法运行,或结果严重偏差;会扭曲数据分布,影响分析的可靠性;可能掩盖真实趋势,使你对数据的判断产生误导。
2025-04-26 22:25:14
253
原创 TomatoSCI分析日记——冗余分析(RDA)
RDA结合了线性相关和降维分析,通常用于两个矩阵之间的研究,通过可视化观察变量之间的关系,十分适用于生态方面的研究。
2025-04-26 14:33:22
719
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人