机器学习
文章平均质量分 78
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
-
R语言fastshap包进行支持向量机shap可视化分析
数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。生成以后就是用fastshap包的explain函数来进行计算shap就可以了,使用的是蒙特卡罗算法。使用fastshap包可以做很多模型的shap,做shap可视化的关键就是要定义一个生成预测值概率的函数,接下来咱们要生成一个支持向量机的模型,这里我就直接上代码了,想具体了解的直接可以看上面的文章。原创 2024-07-03 09:10:49 · 685 阅读 · 0 评论 -
R语言使用 ggscidca包优雅的绘制支持向量机决策曲线
数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。进行分析前还需对数据进行预处理,如果你是多分类的,并且数据差异大,可以使用分层抽样,尽量是数据匹配一下,方法详见我既往文章《R语言两种方法实现随机分层抽样》,我这里是二分类,我就不弄了。最后向大家汇报一下,多模型的决策曲线和混合模型的决策曲线已经写好,下周上传,到时我再出个视频介绍一下。定义一个标准化的小程序。原创 2024-05-17 09:23:11 · 527 阅读 · 0 评论 -
R语言手把手教你进行支持向量机分析
数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,BMI肥胖指数,FEV1肺活量指标,WEIGHT体重,“SBP”,“DBP”:收缩压和舒张压。公众号回复:体检数据,可以获得数据。上图给出了一些模型的基本参数,默认情况下,gamma为预测变量个数的倒数,cost为1。进行分析前还需对数据进行预处理,如果你是多分类的,并且数据差异大,可以使用分层抽样,尽量是数据匹配一下,方法详见我既往文章《R语言两种方法实现随机分层抽样》,我这里是二分类,我就不弄了。原创 2024-05-14 09:07:46 · 1455 阅读 · 0 评论 -
机器学习系列--R语言随机森林进行生存分析(2)
这条斜着的虚线是这两种方法的分界点,蓝色的点代表vimp大于0的,红色的点代表vimp小于0。红色斜着的虚线上的点,代表这个变量在两种分类方法排名相同,高于红色虚线上的点,代表它的vimp的排名更加高,低于红色虚线上的点,表明它的最小深度排名更高。如果我们根据阈值5.2757进行筛选,那么最终可以选出"bili" ,“albumin” ,“copper” ,“prothrombin” ,"edema"这5个变量,有些文章介绍有临床意义的变量也是可以选进来的。但是对于生存数据,我们还要考虑时间的影响,原创 2024-01-10 09:07:14 · 1860 阅读 · 1 评论 -
机器学习系列--R语言随机森林进行生存分析(1)
这是一个胆管炎数据(公众号回复:胆管炎数据2,可以获得数据),years:生存时间,status:结局指标,是否死亡,treatment是否DPCA治疗,age年龄,sex性别,ascites是否有腹水,hepatom是否有肝肿大,spiders是否有蜘蛛痣,edema水肿的级别,bili胆红素,chol胆固醇,albumin白蛋白,copper尿酮,alk碱性磷酸酶,sgot:SGOT评分,trig甘油三酯,platelet血小板,prothrombin凝血酶时间,stage组织学分型。原创 2023-12-27 09:29:55 · 3043 阅读 · 0 评论 -
R语言应用xgboost进行机器学习(1)
把误差作为协变量参与下一个模型的预测,反复执行这个过程,降低出错率,直到决策树指定阈值,模型已经被训练成功。上图显示的是模型的一些基本参数,niter 为迭代次数, nfeatures为训练数据中的特征数量,nrounds提升迭代的最大次数,模型建立好后,我们可以使用DALEX包的explain函数进行解析。数据变量很多,我解释几个我等下要用的,HBP:是否发生高血压,结局指标,AGE:年龄,是我们的协变量,SEX:性别等。今天我们通过R语言来演示一下xgboost进行机器学习,使用的是我们的体检数据,原创 2022-12-22 18:08:31 · 3863 阅读 · 12 评论 -
SPSS主成分分析
在科学研究中,经常需要从同一个体(或观测单位)上观测多个指标,这些指标从不同方面反映个体的性质。主成分分析方法为无监督机器学习的一种方法,是通过线性降维将多个定量指标转换为少数几个综合指标的一种统计分析方法。假设对于某个问题的研究涉及到P个指标,分别用Xl,X2….XP,表示,这个指标构成的P维随机向量设为X1-XP,对X进行线性变换,可以通过线性组合的方式形成新的综合变量这里用C表示:新的综合变量和原来变量之间的关系可以用下面的公式表示:上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量原创 2022-01-26 09:01:49 · 4970 阅读 · 0 评论 -
基于R class包进行近邻分析(KNN)
KNN 算法是 Cover 和 Hart 于1968 年提出一种基于统计的学习方法。K就是类别的意思,等于就是把先数据通过特征空间属性,主要就是计算欧式距离,分为K个相近类别,后面的数据根据自己的属性划分到和自己属性最相似的类别上。就拿我们之前的肉类数据做例子(参考文章:手把手教你R语言做k均值聚类分析),假设肉类有N个属性:热卡、蛋白质、脂肪等等,KNN会根据N个属性划分成了K种肉类。我们假设K=3,分了3种:第一种肉类含能量少,蛋白质少,脂肪少,属于没有什么营养的肉类。第二种肉类:能量很多,脂肪也原创 2022-01-17 09:33:46 · 3061 阅读 · 4 评论 -
基于R语言主成分分析
在科学研究中,经常需要从同一个体(或观测单位)上观测多个指标,这些指标从不同方面反映个体的性质。主成分分析方法为无监督机器学习的一种方法,是通过线性降维将多个定量指标转换为少数几个综合指标的一种统计分析方法。假设对于某个问题的研究涉及到P个指标,分别用Xl,X2….XP,表示,这个指标构成的P维随机向量设为X1-XP,对X进行线性变换,可以通过线性组合的方式形成新的综合变量这里用C表示:新的综合变量和原来变量之间的关系可以用下面的公式表示:上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量原创 2022-01-05 11:37:10 · 4292 阅读 · 0 评论 -
基于R语言做层次聚类分析
聚类分析法(Cluster Analysis) 是在多元统计分析中研究如何对样品(或指标)进行分类的一种统计方法,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。聚类分析主要分为层次聚类,划分聚类和密度聚类。层次聚类方法(Hierarchical Clustering)就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。原理就不多说了,我们今天主要来说下怎么使用R语言进行层次聚类分析,使用R包flexclust自带的数据nutrient,主要说的是27种肉类的营原创 2021-05-12 10:20:54 · 17349 阅读 · 9 评论 -
基于R语言做决策树和随机森林(3)
上节我们介绍了随机森林的一些简单情况和使用R语言做二分类结局变量的随机森林模型分析,今天我们继续来介绍为连续变量结局变量的随机森林模型分析,废话不多说,立即开始,使用的数据为SPSS自带的大气层臭氧的数据集,主要描述的是臭氧浓度和大气一些相关指标的情况,因为有些数据是非线性的,使用Logistic回归不合适,可以使用随机森林模型进行分析。需要使用到randomForest、pROC、lforeign、Metrics、ggplot2包,要先下载好,我们先导入数据看一下情况library(randomFor原创 2021-03-17 09:45:10 · 1445 阅读 · 0 评论 -
基于R语言做决策树和随机森林(2)
上一节我们说了决策树,今天我们来聊聊随机森林,随机森林在2001年由Breiman提出,其解决了logistic回归容易出现共线性的问题,它包含估计缺失值的算法,如果有一部分的资料遗失,仍可以维持一定的准确度。随机森林中分类树的算法自然地包括了变量的交互作用( interaction),所以它也不需要检查变量的交互作用和非线性作用是否显著。在大多数情况下模型参数的缺省设置可以给出最优或接近最优的结果。随机森林可以简单的理解为很多的决策数通过分类投票。原理大致是:对训练集进行有放回随机抽样,获得的 多个个样原创 2021-03-14 17:29:42 · 2012 阅读 · 0 评论 -
基于R语言分析决策树和随机森林(1)
决策树和随机森林是机器学习的一个重要内容。今天主要来说说决策树,决策树分为传统的决策树和条件决策树,传统决策树(rpart包实现)主要是基于:基尼不纯度(Gini Impurity)或信息增益(Information Gain)等标准对节点进行递归分割。条件决策树会根据条件分布测量变量与响应值(分类)之间的相关关系,选择分割节点中要使用的变量,可以改善rpart包过度拟合的问题。今天我们主要来聊聊条件决策树,假如你是一个银行的经理,有客户来向你贷款,对于还款能力强(低风险)的客户,你肯定愿意贷款给他,而对于原创 2021-03-09 09:58:48 · 2350 阅读 · 1 评论