统计学
文章平均质量分 95
FarmerJohn
Java后端工程师。
肿瘤学研究生;平时也喜欢研究算法、统计学、机器学习、深度学习、贝叶斯分析、临床数据分析、生信数据分析、Android开发。
展开
-
提高非参数检验功效的潜在方法
对于非正态分布的数据,当样本量不够大(如小于30)时,Wilcoxon 检验的功效较低。如何提高非参数检验的功效,这是个不容易的问题。Wilcoxon是一个特异度很高的检验方法,但小样本时灵敏度较低。如果简单放宽检验水准,将会迅速损失特异度,并不是上上策。小样本的差异分析一直是个头疼的问题,对于两组样本量都少于30的情况,各类非参数检验都很低效。除了尝试对数据log或开根号转化等数据预处理技巧外,...原创 2019-11-17 02:20:00 · 2339 阅读 · 0 评论 -
基于分布状态的两样本非参数检验
Fisher精确检验(基于超几何分布)的基本假设可以通俗理解为:如果当前分组方式是一种随机现象(无意义的分组),那么基于当前分组出现当前离散分布的可能性有多大(当然严格意义上应该这么说:比当前分布状态更极端的各分布状态的累积概率是多少 [包含与当前分布状态类似的状态] 。严格的描述有点拗口,以下仍采用这种简单懒惰的描述——“可能性”。这种懒惰的描述其实也让全文的描述显得很怪很不严谨)。那么,能...原创 2019-11-16 13:56:07 · 1157 阅读 · 0 评论 -
相关性系数替代模型预测得分
我们知道,构建模型后(得到权重参数),预测某个样本的得分(输出),只需要将该样本的按照模型的转化公式计算即可。但是,笔者最近看到两篇CNS的转录组学文献,采用了另一种构建样本得分的方法,使用相关性系数替代预测得分。具体来讲,这些文献中,在求得模型的权重向量W后,对于样本X,其预测得分用替代。而常规做法中,预测得分采用的是。上述score与predict之间是否总是一致,一致性是否健壮?...原创 2019-11-04 11:13:31 · 2010 阅读 · 0 评论 -
模型求解
本文主要总结模型的求解方法,包括优化目标的构造及根据优化目标求解模型参数。优化目标这部分摘自:机器学习中的范数规则化之(一)L0、L1与L2范数一般来说,监督学习可以看做最小化下面的目标函数: 其中,第一项 衡量我们的模型(分类或者回归)对第 i 个样本的预测值 和真实的标签之间的误差。因为我们的模型是要拟合我们的训练样本的嘛,所以我们要求这一项最小,也就是要...原创 2018-11-23 20:49:17 · 8367 阅读 · 0 评论 -
非靶向代谢组学数据分析方法总结
生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经...原创 2019-04-30 18:53:10 · 59697 阅读 · 0 评论 -
生存模型的calibration需要注意的一个问题
建立一个模型后,我们常常会评价模型的区分度(discrimination)和校准度(calibration)。生存模型中,我们经常会看到使用calibration图来呈现模型的校准度。笔者近期查阅了网上许多绘制calibration图的R代码,发现很多代码忽略了time.inc参数的使用,甚至注释中提到了这个参数的重要性却仍然用错了。将愚见记录与此,若有理解错误,烦请大佬指正。发现这个问题是源...原创 2019-06-09 17:18:34 · 11987 阅读 · 40 评论 -
高维数据中特征筛选方法的思考总结——单变量分析筛选法
基因组学、转录组学、蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征)。降维方法分为两大类:单变量分析降维法、多变量分析降维法。单变量降维常常使用FC值或者P值,多变量降维常常使用LASSO和PLS等方法。对于这个问题,将分为两篇文章进行探讨,本文着重探讨单变量分析筛选法。常规方法的问题常规的方法是使用P值法和FC值法。所谓P值法,就是对两组样本进行 ...原创 2019-06-11 21:06:44 · 4616 阅读 · 0 评论 -
高维数据中特征筛选方法的思考总结——多变量分析筛选法
前言:之前的文章(高维数据中特征筛选方法的思考总结——单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法。由于本文多处摘录网上的博客,只是进行了归纳整理,因此笔者将本文定性为转载类(转载请注明出处:https://blog.csdn.net/fjsd155/article/details/93754257)。多变量分析方法根据建模特点可以分为线性降维和非...转载 2019-06-26 17:11:31 · 30412 阅读 · 2 评论 -
偏最小二乘法 Partial Least Squares
本文前部分摘自:偏最小二乘法回归(Partial Least Squares Regression),后半部分原创。诸如基因组学、转录组学、蛋白组学及代谢组学等高通量数据分析,由于自变量数目大于病例数(未知数大于方程个数),无法直接使用传统的统计分析模型。比如,线性回归的窘境:如果样例数m相比特征数n少(m<n)或者特征间线性相关时,由于(n*n矩阵)的秩小于特征个数(即不可逆)。因此最...转载 2019-06-24 00:15:58 · 74919 阅读 · 9 评论 -
Restricted cubic splines
本文主要译自:Restricted cubic splines,翻译加上自己的理解,整理如下。在统计学里,splines 技术用来对变量进行转换。有时候我们会将连续性变量转化为分类变量(哑变量化),因为该连续性变量与结局变量之间的线性关系比较差。比如建立疾病预后模型时,年龄这个变量通常会被通过选取一个合适的界值转化为分类变量。然而,很多大佬并不推荐使用分类变量。生统大佬FrankHarr...翻译 2019-06-30 20:55:21 · 10255 阅读 · 1 评论 -
共线性那些事儿
我们经常听说,建模时应当尽量避免共线性(collinearity),共线性会导致参数估计不稳定、模型不可靠等等。那么共线性究竟有多可怕?共线性具体会带来什么问题?共线性得到的模型是否真的不行?笔者通过自己的一些思考,结合模拟数据的测试,对共线性的问题进行了些探讨。笔者拙见,如有纰漏,烦请指教。其实很多变量都存在少量的共线性关系,但是对建模基本没有造成影响。本文主要探讨的是共线性较严重的情况。...原创 2019-07-06 18:24:42 · 19134 阅读 · 5 评论 -
辩证看待倾向性评分法
倾向性评分匹配法(Propensity Score Matching,PSM)是临床观察性研究中经常使用的一种控制混杂偏移的技巧。其出现的背景是:需要控制的混杂变量很多,采用分层法控制偏移会导致样本量严重缩水,因而采用一种替代的可以近似控制混杂因素的方法。混杂因素混杂因素(即混杂变量,confounding variables)的定义和条件如下(摘自百度百科):混杂因素是指与研究因素...原创 2019-07-21 02:03:30 · 16226 阅读 · 8 评论 -
马尔可夫链蒙特卡罗算法 MCMC
马尔可夫链蒙特卡罗算法(MCMC)是贝叶斯推断中的明星算法,困惑笔者颇久,阅读了刘建平大佬的博客及知乎上的一些阅读笔记后,终于有了些自己的理解。本文基于刘建平大佬的博客进行梳理,复制粘贴较多(甚至截图),权且当成读书笔记。蒙特卡罗方法原文链接:MCMC(一)蒙特卡罗方法要理解好MCMC,得先从第二个MC——Monte Carlo开始说起。引入求解积分问题(即面积计算类问题,尤其...转载 2019-10-06 14:50:35 · 9040 阅读 · 0 评论 -
贝叶斯学习笔记
概率编程允许在用户自定义的概率模型上进行自动贝叶斯推断。本文主要基于概率编程的一个常用框架——PyMC3进行操作。PyMC3使用Theano通过变分推理进行梯度计算,并使用了C实现加速运算。PyMC3具有先进的下一代MCMC采样算法如No-U-Turn Sampler (NUTS; Hoffman, 2014)和Hamiltonian Monte Carlo自整定变体(HMC; Duane, ...转载 2019-10-10 01:47:52 · 2438 阅读 · 0 评论 -
生存模型的C-index(C指数)
本文转自:如何在R软件中求一致性指数C-index,C指数即一致性指数(index of concordance),用来评价模型的预测能力。c指数是资料所有病人对子中预测结果与实际结果一致的对子所占的比例。它估计了预测结果与实际观察到的结果相一致的概率。c指数的计算方法是:把所研究的资料中的所有研究对象随机地两两组成对子。以生存分析为例,对于一对病人,如果生存时间较长的一位的预测生存时间也长于...原创 2018-11-30 23:34:18 · 94386 阅读 · 27 评论 -
生存模型的AUC
前面的文章总结了分类模型的AUC评价,但是对于生存模型如Cox比例风险模型,是否有类似的评价指标呢?比较简单粗暴的想法是,确定一个生存终点,从而将生存模型的评价转化为分类模型的评价,比如3年DFS,此时生存时间和生存状态便依据3年这个时间点,转化成第3年那个时刻的“生存状态”,即模型因变量变成了分类变量。这个时候可以直接用分类模型的AUC计算方式直接计算(但是预测模型应该仍然是用Cox模型,暂...原创 2018-11-30 22:24:29 · 12300 阅读 · 4 评论 -
R语言资源汇总
Nomogram的教程:Logistic、Cox回归之图形化呈现(R语言中绘制Nomogram)、教你用R画列线图,形象展示预测模型的结果、基于R的生存资料预测模型构建与Nomogram绘制ggplot绘图细节汇总:ggplot2中如何设置坐标轴大小等绘图细节(总结整理)生存分析的一些资料:R语言-Survival analysis(生存分析)Survival Analysi...原创 2018-12-03 12:29:59 · 5069 阅读 · 4 评论 -
似然比检验 LRT
似然比检验(likelihood ratio test,LRT)是一种检验参数能否反映真实约束的方法(分布或模型的某参数等于 是否为真实约束)。似然比检验的思想是:“如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。” 可以看出,似然比检验是一种通用的检验方法(比 检验、...原创 2018-12-06 22:12:05 · 93109 阅读 · 1 评论 -
模型评价方法总结
模型构建好后,如何判断这个模型好不好?或者说,对于两个模型,如何判断哪个模型更好呢?本文将简单综述模型评价的各种方法。对于模型的评价,主要分为2个角度:一个是模型的Discrimination(区分度),或称预测精度,评价的指标包括AUC、C指数、NRI等;另一个是Goodness of Fit(拟合优度),或称Calibration(校准度),评价指标包括AIC、BIC、R方、Brier分数...原创 2019-02-17 21:15:25 · 14745 阅读 · 0 评论 -
净重新分类改善指数 NRI
本文摘自:比较两个疾病模型的预测能力(医咖会是个不错的学习平台)分类模型不仅可以用AUC进行评价,还可以使用NRI对模型准确性进行比较。尤其是在多分类问题中,AUC可能不够方便或直观,此时NRI的价值就突显出来了。另外,有时候两个模型的AUC没有统计学差异,但是NRI却可以检验出统计学差异(2008年发表在Stat Med杂志上的文章《Evaluating the added predicti...转载 2019-02-17 21:56:43 · 12557 阅读 · 1 评论 -
综合判别改善指数 IDI
本文摘自:两个预测模型比较,再教你一招IDI之前的博客中介绍了AUC(曲线下面积)和NRI(净重分类改善指数)两个指标来评估模型的Discrimination能力,实际上NRI还有个孪生兄弟——IDI(Integrated Discrimination Improvement,综合判别改善指数)。IDI是由Pencina等人于2008年提出的,应该说算是一个非常新的判别指标了。由于它考虑了...转载 2019-02-19 11:45:54 · 10816 阅读 · 0 评论 -
使用深度学习进行生存分析
本文转自:使用深度学习进行生存分析相关资源原论文地址:here论文中使用的深度生存分析库:DeepSurv,是基于Theano 和 Lasagne库实现的,支持训练网络模型,预测等功能。考虑到DeepSurv库中存在着一些错误以及未实现的功能,博主使用目前主流的深度学习框架Tensorflow实现了深度生存分析库:TFDeepSurv。欢迎有兴趣的同学Star和Fork,指出错误,相互交流...转载 2019-02-24 20:18:22 · 7990 阅读 · 4 评论 -
广义估计方程GEE
本文大部分内容来源于书本和论文等资料,笔者将本文归为转载类,读者转载时请注明出处:https://blog.csdn.net/fjsd155/article/details/88318536广义估计方程(generalized estimating equation, GEE)用于估计广义线性模型的参数(其中线性模型的结果之间可能存在未知的相关性)。于1986年由Liang和Zeger首次提出...转载 2019-03-08 21:52:54 · 65706 阅读 · 15 评论 -
广义线性混合模型GLMM
广义线性混合模型GLMM(Generalized Linear Mixed Model),是广义线性模型GLM 和线性混淆模型LMM 的扩展形式,于二十世纪九十年代被提出。GLMM因其借鉴了混合模型的思想,其在处理纵向数据(重复测量资料)时,被认为具有独特的优势。GLMM不仅擅长处理重复测量资料,还可以用于任何层次结构的数据(因为本质上又是多水平模型)。提到GLMM,有必要先介绍几个容易混淆的...原创 2019-03-09 22:46:44 · 80800 阅读 · 6 评论 -
似然与极大似然估计
本文转自:似然与极大似然估计似然与概率在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,...转载 2019-03-10 00:56:29 · 4030 阅读 · 0 评论 -
统计学书籍推荐
简单推荐几本不错的高级统计学书籍1.《应用多元统计分析》 2.《多元统计分析》 3.《线性和广义线性混合模型及其统计诊断》 4.《独立成分分析》 5.《高级医学统计学》 6.《医学统计学》 此外,还有两本统计书也还可以:《SPSS统计分析高级教程》《SAS高级统计分析教程》。顺便推荐...原创 2019-03-10 14:09:24 · 14571 阅读 · 0 评论 -
广义线性模型GLM
本文转自GLM(广义线性模型) 与 LR(逻辑回归) 详解(原作者:爱学习的段哥哥)GLM的内容,本应该较早之前就总结的,但一直觉得这种教科书上的基础知识不值得专门花时间copy到博客里来。直到某一天看到一篇不错的总结,在征求作者同意后,转载于此(本人比较懒啦)(然而公式重新排版竟然花了1个多小时TT)。原文如下George Box said: “All models are wro...转载 2019-03-11 16:57:19 · 10167 阅读 · 0 评论 -
决策曲线 Decision Curve
本文转自:决策曲线分析法(Decision Curve Analysis,DCA)简介评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?患者就一定受益吗?比如我通过某个生物标志物预测患者是否患了某病,无论选取哪个值为临界值,都会遇到假阳性和假阴性的可能,有时候避免假阳性受益更大,有时候则更希望...转载 2019-04-01 17:08:58 · 26070 阅读 · 21 评论 -
二分类模型AUC评价法
对于二分类模型,其实既可以构建分类器,也可以构建回归(比如同一个二分类问题既可以用SVC又可以SVR,python的sklearn中SVC和SVR是分开的,R的e1701中都在svm中,仅当y变量是factor类型时构建SVC,否则构建SVR)。二分类模型的评价指标很多,这里仅叙述AUC这个指标。AUC的具体原理此处不再叙述,可以参考相关资料,比如这个还行:ROC和AUC介绍以及如何计算AUC...原创 2018-11-22 23:40:57 · 20650 阅读 · 1 评论 -
模型中各变量对模型的解释程度
在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程,可以计算变量的重要性;但对于大多数非线性模型,是比较难确定各个变量的贡献程度,本文仅讨论广义线性模型中的变量贡献程度。因此本文分为两种情况来看:普通线性模型与广义线性模型。普通线性回归...原创 2018-12-02 22:00:46 · 46350 阅读 · 6 评论