找计算机方面,医学方面的好期刊发表交叉学科论文
医学方面期刊
cell, cancer, lancet, journal of clinical medicine
国内去知网看看,带中国、中华开头的杂志都不错, 就找肝相关的杂志,分泌、内科相关的搜一下
论文pdf寻找可以去学校图书馆里找找,或者谷歌学术
小样本的搜下关键字,看下都有啥期刊
计算机方面的在dblp搜:
dblp: computer science bibliography
https://www.sciencedirect.com/science/article
https://stat.paperswithcode.com/
然后看所发表的期刊会议直接看Ccf目录:
中国计算机学会(CCF)推荐国际学术会议和期刊目录(2019)-单页 - Ying ZHANG
SCI期刊影响因子查询_2021影响因子查询_唯问Justscience_中外核心期刊查询系统
目录
相关论文汇总表:
论文主题 | 该论文发表时间/刊物 | 使用方法 | 数据 | 代码 | |
高维、低样本数据集的集成特征选择 | 2020, Knowledge-Based Systems(JCR Q1) | 集成学习改进的特征选择(并行、串行组合结合并、交、多交方法中两种或三种不同的特征选择结果) | 选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库中收集 | 相似代码和数据集https://github.com/agoscinski/EnsembleMethodsForFeatureSelection | |
基于RNN的高维小样本数据特征选择 | 2019 IEEE International Conference on Big Data | 四种具有不同结构的递归神经网络的特征选择模型,包括门控递归单元(GRU)、长短期记忆(LSTM)、RNN和双向LSTM | 真实数据(micro-array)细胞分类 | ||
高维小样本深度学习 | 2017 Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence(CCFa) | 适合于HDLSS数据的DNN模型——深度神经追踪(Deep Neural Pursuit, DNP)。DNP选择一个高维特征子集来减轻过拟合,并在多个dropouts上取平均值,以计算低方差梯度 | 6个公开的生物数据集 | paper: https://www.ijcai.org/proceedings/2017/0318.pdf | |
高维小样本上演化算法的多分类 | 2020 IEEE Transactions on Emerging Topics in Computing(JCR Q1) | 使用了Genetic Programming (GP),一种intrinsic evolutionary分类算法,实现自动特征构建(automated feature engineering)。本文提出了一种基于集成的GP分类框架,即基于sigmoid的集成Gene Expression Programming(SEGEP) | 生物信息(bio-information)数据集4个 | github.com/YingBi92/BookCode | |
自动特征构建框架(Evolutionary Forest)-可解释性机器学习 | scikit-learn中的“diabetes”442条样本,特征值10项 | Evolutionary Forest: https://github.com/zhenlingcn/EvolutionaryForest | |||
ML筛查糖尿病微血管并发症 | 2021, IEEE Access | accuracy | 24小时动态心电图 | ||
2型糖尿病并发症诊断 | 多标签(multi-label)分类问题,将大血管、微血管、神经病变作为三个标签,每个标签都是一个不平衡的分类问题。 | 糖尿病数据集来自中国人民解放军总医院(301医院) | |||
糖尿病并发症预测模型的机器学习算法的比较分析 | 2021 Informatica (Slovenia) | 预测哪些患者在入院时更有可能出现复杂的健康状况 | 数据集来自Alsukari医院 | ||
糖尿病并发症诊断的多标签分类模型 | 2021 BMC Medical Informatics and Decision Making(Q3) | 使用Pearson相关系数(PCC)从统计学角度分析不同糖尿病并发症之间的相关性 | 2013年5月至2020年6月南京医科大学附属常州第二人民医院的患者的人口统计学特征和实验室数据。数据包括93项生化指标,9765例患者。 | 致谢中提到另两篇论文作者给他代码 | |
动态自适应 filter改进GWO 调参+SVM预测糖尿病并发症 | 2021 Neural Computing and Applications(Q1) | 支持向量机的缺点之一是需要参数调整,可以使用元启发式算法,如粒子群优化算法(PSO)、遗传算法或灰狼优化器(GWO)。本文通过预处理和数据集的准备来进行数据挖掘,然后利用SVM来预测糖尿病的并发症。 | 数据由马赞达兰医学科学大学内分泌学系收集 | ||
COVID-19并发症预测 | 2020 https://arxiv.org/pdf/2012.01138v1.pdf | 表现最好的模型是gradient boosting模型和logistic回归模型 | 使2020年4月1日至4月30日期间在阿联酋阿布扎比(AD) 18家医院收治的3352名COVID-19患者的数据 | https://github.com/nyuad-cai/COVID19Complications | |
迁移学习改进手术并发症的预测 | 2016 https://arxiv.org/pdf/1612.00555v1.pdf | 迁移学习潜在因素Transfer Learning Latent Factor Model (TL-LFM)模型+hierarchical prior on the loadings matrix以适当地解释数据中的不同协方差结构。通过scale mixture formulation using stick-breaking properties扩展了这个模型来处理更复杂的人群之间的关系 | 美国外科医生学会(ACS)创建了国家手术质量改善计划(NSQIP),数据是通过NSQIP收集,包含来自700多家不同医院的近400万患者(输入特征情况文中没有特别说明) | ||
多视图多任务学习对癌症幸存者预测心脏并发症风险 | 2021 https://arxiv.org/pdf/2109.12276v1.pdf | 我们提出了一个多视图多任务网络(MuViTaNet)来预测多种并发症的发生,以解决两个挑战 | 六个真实的保险索赔数据集 | https://github.com/pth1993/muvitanet |
先针对难点知乎了一下
小样本高维特征问题
参考:机器学习如何在小样本高维特征问题下获得良好表现? - 知乎
用各种机器学习算法不如用统计检验的方法做前期的特征工程。例如著名的T检验。关于传统统计模型大体分两部分:参数估计和假设检验。比如对于时间序列数据,先后需要acf/pacf验证并差分去除平稳性,ma/ar模型参数估计,假设检验。
手工实现特征工程是一件极为繁琐的事情,尤其是对于图像处理领域,存在大量的图像处理算子(例如SIFT、HOG、LBP)。对于新手来说,很难找到适合对应问题的图像处理算子。因此,这时候我们就需要一种AutoML算法,能够自动选择合适的图像处理算子对图像特征进行提取。随后,提取好的特征使用一个SVM进行训练即可。
小样本图像/表格数据学习可以考虑使用基于Genetic Programming的AutoML算法提取图像/表格特征,并使用简单的模型(线性模型/决策树)实现学习。
至于表格类数据的特征提取,有兴趣的同学可以看一下我的另一篇知乎文章[1],或者是华南理工大学钟竞辉老师在2021年TETCI上的文章[2]。
表格数据特征提取:
https://zhuanlan.zhihu.com/p/378444073
华南理工大学钟竞辉老师文章:
Wei T, Liu W L, Zhong J, et al. Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming[J]. IEEE Transactions on Emerging Topics in Computing, 2020
Y. Bi, B. Xue and M. Zhang, "Genetic Programming for Image Classification: An Automated Approach to Feature Learning," 2021, Springer International Publishing
开源代码:https://github.com/YingBi92/BookCode
1)迁移学习。即让模型先在一个大样本下其他场景上的数据集做预训练,得到一个基础模型;然后根据业务需要,迁移到小样本的场景。
2)高维特征,容易过拟合,那么可以通过一些分析获得主要的特征,选择一些主要特征作为模型的输入。
3)集成或bagging的思路。训练多个模型,一起做预测;像随机森林一样,引入特征或数据集方面的随机性。
迁移学习+元学习
迁移学习用来提取特征,元学习用来增强训练。
防止过拟合,数据增强多多的,参数少少的。
提供几个关键词:
贝叶斯,active learning(少量样本(uncertain, informative,diverse )情况提升性能),transfer learning
目前的接触过的应对方法:
- 简单的可解释性高的模型,能线性模型就不非线性,特征提取+特征工程+统计学习可以的,就不上黑匣子deep Learning。从工业界推荐系统来看,样本量小,用深度模型不如用特征丰富的LR或GBDT模型
- 简单的假设,假设特征稀疏性,只有少量特征与任务相关,上L1正则化;能二分类不多分类,能样本平衡就不给自己加戏用更多不平衡的样本。
(此处意思是舍弃样本还是做上采样等处理?)
- 严格的交叉验证,三折五折交叉验证那是少的,恨不得每个都LOOCV,减少样本集合划分的随机性;有时候超参也用交叉验证来调,避免人为选择,就得上嵌套交叉验证。
- 谨慎地特征工程/特征选择/特征压缩。先验知识也好,统计信息也好,PCA也好,把特征维度降下来,把关键特征找出来,最后哪怕不展示模型只展示关键特征呢,效果不好不要紧,泛化能力好最要紧。就这个话题而言,交叉验证意义不大,怎么交叉都是在自己实验室的小数据集里,各种偏倚都没保障,不在最开始就根据数据量和维度严格限制住特征数的话,怎么说解决泛化问题都是自欺欺人。归根结底,先有数据才能选方法然后建模然后有成败,而发这种paper往往是先定下分析方法,那么花了经费拿到数据以后自然骑虎难下。
- 迁移学习,医疗影像里,拿比较容易获得标记的数据做训练,例如ImageNet,公开数据集等,迁移到目标任务上。效果好皆大欢喜,效果不好再试着调调,调了还不好那就是命。
- 如果少量样本回归也不适合 回归适合大数据样本和连续性数据 否则容易过拟合!建议决策树 随机深林 或者干脆用无监督聚类 以及贝叶斯 这些都适合小样本
参考:2000多个特征,2000个数据可以用深度学习吗? - 知乎
https://www.zhihu.com/question/30904663/answer/362673462
是不是imbalanced classes,sparsity,missing rate 高不高这些都会影响。实在要用,做好feature selection和regulation。附上一篇针对HDLSS的论文
https://www.ijcai.org/proceedings/2017/0318.pdf
关键词:sample complexity classification
1. 如果sample中没有label,也就是说unsupervised learning的话,PCA是可以使用的2. 如果sample中有label, 可以使用supervised learning method的话,可以尝试与PCA类似的LDA algorithm (Linear Discriminant Analysis)Python Scikit-learn package中有写到有关的介绍,两者的区别主要是PCA选择 a set of attributes that explain for the most variance in the data, while LDA selects a set of attributes that account for the most variance between classes (label).
建议了解Feature Screening这种方法,在2008由Jianqing Fan和Jingchi Lv提出,专门用于处理超高维(高维少样本,维度是样本的指数阶),具体可以采用一个Feature Screening加Lasso的两步法,可以参看2012JASA Wei Zhong,Runze Li等人提出的DC-SIS方法。當然Feature Screening是建立在稀疏的基礎上,反之可以參考充分降維的一些方法。
启发式特征选择,SVM-RFE
manifold learning降维,scikit-learn里有库
建议读一下优雅的使用SCIPY (elegant scipy). 里面开篇就谈到了小样本 高纬度
小样本问题
迁移学习(one-shot learning/few shot learning),即在训练集中,每一类都有一张或者几张样,主要方法可以关注迁移学习、meta-learning,metric-learning的相关研究进展。单例学习是迁移学习/Domain Adaptation的一个特例。模型在source domain训练好之后,迁移到target domain,target domain只用一个标记样本去训练模型的参数就可以了。
模型可以从source domain学到表示车的有效特征,比如有轮子、轮子尺寸大小、有踏板、方向盘或龙头等。测试时,在target domian,只需要一个或很少一些target domain的标记样本,比如只需要在模型可以准确识别车的条件下,给模型一张平衡车的标记图片
数据增强:
第一,利用流信息学习one-shot模型,常见的有半监督学习和transductive learning,探讨的是如何用无标签数据去做one-shot learning。
第二,在有预训练模型时,用这些预训练模型进行数据增强。
第三,从相近的类别借用数据,来增强训练数据集。
第六,属性引导的增强方法。具体大家可以在文章里进行详细了解。
针对关键词搜索
1.高维小样本
dblp搜High Dimension and Low Sample Size Data,找到的大多是特征选择方面的:
1.Correlation structure regularization via entropy loss function for high-dimension and low-sample-size data
基于熵损失函数的高维低样本数据相关结构正则化,2021年
Communications in Statistics - Simulation and Computation(SCI4区)
2.Ensemble feature selection in high dimension, low sample size datasets: Parallel and serial combination approaches
高维、低样本数据集的集成特征选择:并行和串行组合方法,2020年
Knowledge-Based Systems(JCR Q1)跨学科、面向应用(interdisciplinary and applications-oriented)的期刊
特征选择方法可以分为三类,filter、wrapper和embedded methods[10]、[11]、[12]。一般来说,过滤方法通过使用一些评分函数对给定的特征进行排序,以探索数据的内在属性。另一方面,包装器和嵌入式方法在选择过程中涉及到与分类器的交互,前者优化分类器以搜索最优特征子集,后者将搜索构建到分类器结构中。
选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库[43]中收集
3.Recurrent Neural Network Based Feature Selection for High Dimensional and Low Sample Size Micro-array Data
基于递归神经网络的高维小样本微阵列数据特征选择
2019 IEEE International Conference on Big Data
一种基于递归神经网络(RNN)的特征选择框架来选择特征子集。具体地说,该框架已应用于从微阵列(基因表达数据实验结果)数据中选择特征用于细胞分类(cell classification)
4. Deep Neural Networks for High Dimension, Low Sample Size Data
HDLSS的DL
Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence(CCFa)
https://www.ijcai.org/proceedings/2017/0318.pdf
深度神经网络(DNN)在大样本应用中取得了突破。然而,在面对高维、低样本量(HDLSS)数据时,如生物信息学中利用遗传数据进行表型预测的问题,DNN存在过拟合和高方差梯度。在本文中,我们提出了一种适合于HDLSS数据的DNN模型——深度神经追踪(Deep Neural Pursuit, DNP)。DNP选择一个高维特征子集来减轻过拟合,并在多个退出项上取平均值,以计算低方差梯度。DNP作为首个应用于HDLSS数据的DNN方法,具有高非线性、高维鲁棒性、小样本学习能力、特征选择稳定性和端到端训练等优点。我们通过对合成和真实生物数据集的经验结果证明了DNP的这些优势。
查找论文和其对应的开源代码The latest in Machine Learning | Papers With Code:
5. An efficient ADMM algorithm for high dimensional precision matrix estimation via penalized quadratic loss
基于惩罚二次损失函数的精确矩阵估计算法。在高维低样本容量的设置下,本算法的计算复杂度在样本容量和参数个数上是线性的,这与计算样本协方差矩阵相同
算法方面的,不一样
2.并发症
complication
- 利用机器学习筛查糖尿病微血管并发症
Screening Cardiovascular Autonomic Neuropathy in Diabetic Patients With Microvascular Complications Using Machine Learning: A 24-Hour Heart Rate Variability Study
IEEE Access, vol. 9, pp. 119171-119187, 2021
在机器学习算法中嵌入超过24小时的心率变异性(HRV)特征,以提供对CAN患者的完整筛查的可行性。24小时动态心电图数据来自孟加拉国的一个队列(n = 95例患者[75例糖尿病患者和25例健康患者])。从HRV信号的每5分钟片段中提取HRV特征,作为四种机器学习算法的输入,每小时进行训练和测试。开发了一个完整的层次分步诊断程序(4个测试);即测试1,检查是否健康或是否患有糖尿病;试验2检查是否有微血管并发症(包括神经病变如CAN、周围神经病变(DPN)、肾病(NEP)和视网膜病变(RET));测试3检查是否只有CAN存在;测试4检查是否合并或合并CAN。最高水平的性能达到了85.5%(测试1 -卷积神经网络(CNN)), 98.5%(测试2 - CNN), 98.3%(测试3 -一类支持向量机(SVM)),和90.9%(测试4 -随机森林)。
2. 2型糖尿病并发症诊断
Diagnosis of complications of type 2 diabetes based on weighted multi-label small sphere and large margin machine
2021,APPLIED INTELLIGENCE(Q2)
将其转化为一个多标签分类问题,将大血管、微血管、神经病变作为三个标签。此外,我们发现每个标签都是一个不平衡的分类问题。为此,本文提出了一种基于二值关联(BR)的加权多标记small sphere and large margin machine (WML-SSLM)诊断T2DM并发症的新方法。与BR方法相比,WML-SSLM通过给不同的实例赋予不同的权重来考虑标签的相关性。以中国人民解放军总医院的糖尿病数据集为研究对象,采用我们提出的WML-SSLM对T2DM大血管、微血管和神经病变的诊断进行研究,t检验分析各并发症的相关特征
3. 建立糖尿病并发症预测模型的机器学习算法的比较分析
A Comparative Analysis of Machine Learning Algorithms to Build a Predictive Model for Detecting Diabetes Complications.
2021 Informatica (Slovenia)
http://www.informatica.si/index.php/informatica/article/view/3111 db/journals/informaticaSI/informaticaSI45.html#AbakerS21
预测哪些患者在入院时更有可能出现复杂的健康状况。这些数据是2018年1月至2019年4月从Alsukari医院收集的644份电子健康记录。
机器学习方法:logistic回归、随机森林和k-最近邻(KNN)。logistic回归算法比其他算法表现更好,准确率为81%,召回率为81%,F1得分为75%。使用了序列特征选择(SFS)算法,将特征减少到6个
4. 癌症患者术后并发症的可预测性:
On the predictability of postoperative complications for cancer patients: a Portuguese cohort study
2021 BMC Medical Informatics and Decision Making(Q3)
针对2016年至2018年期间接受手术的847名癌症患者的回顾性队列研究,开发和评估基于机器学习的风险评分,评估4项结果:(1)术后是否存在并发症,(2)并发症的严重程度,(3)在ICU (Intermediate Care Unit)住了多少天,(4)术后1年内的死亡率。另外一个来自同一中心的137名癌症患者队列被用于验证。第二,提高预测模型的可解释性。为了实现这些目标,我们提出了一种学习风险预测因子的方法,为临床决策过程提供了新的视角和见解。根据发展队列计算,术后并发症的受试者工作特征曲线(Receiver Operating Characteristic Curve, AUC)为0.69,并发症严重程度的AUC为0.65,ICU天数的平均绝对误差为1.07天,术后1年死亡率的AUC为0.74
5. 多标签分类模型在糖尿病并发症诊断中的应用
Application of multi-label classification models for the diagnosis of diabetic complications
2021 BMC Medical Informatics and Decision Making(Q3)
2013年5月至2020年6月南京医科大学附属常州第二人民医院的患者的人口统计学特征和实验室数据。数据包括93项生化指标,9765例患者。我们使用Pearson相关系数(PCC)从统计学角度分析不同糖尿病并发症之间的相关性。我们使用了基于随机森林(RF)技术的MLC模型,利用这些相关性并同时预测四种并发症。我们探索了四种不同的MLC模型;a标签功率集(Label Power Set, LP)、分类器链(Classifier chain, CC)、集成分类器链(Ensemble Classifier chain, ECC)和校准标签排名(calibration Label Ranking, CLR)。我们使用传统的二元关联(BR)作为比较。我们使用了11种不同的性能指标和接受者工作特征曲线(AUROC)下的面积来评估这些模型。我们分析了学习模型的权重,并说明了(1)不同并发症的前10个关键指标以及(2)不同糖尿病并发症之间的相关性。
6. GWO with adaptive middle filter调参+SVM预测糖尿病并发症
Improvement of grey wolf optimizer with adaptive middle filter to adjust support vector machine parameters to predict diabetes complications
2021Neural Computing and Applications(Q1)
支持向量机的缺点之一是它的参数调整,可以使用元启发式算法,如粒子群优化算法(PSO)、遗传算法或灰狼优化器(GWO)来完成。在本文中,我们通过预处理和数据集的准备来进行数据挖掘,然后利用SVM来预测糖尿病的并发症。我们采用动态自适应中滤波器改进了GWO的选择过程,中滤波器是一种非线性滤波器,根据数据值为每个值分配适当的权重。与多层感知器神经网络、决策树、简单贝叶斯和时间模糊最小-最大神经网络(TFMM-PSO)等分类方法的最终结果进行比较,表明了该方法较好
所需数据由马赞达兰医学科学大学内分泌学系收集。文件信息为2015年下半年。有1573例患者的初始记录,其中53例信息不完整。患者平均年龄53岁,男性占30%,女性占其余。70%的患者有糖尿病家族史。在此阶段对患者的实验室特征进行评估和识别。每位患者有23个特征,包括姓名、家庭、档案编号、地址、身高、体重、年龄、体重指数、性别、遗传、最高血压、最低血压、教育程度、空腹血糖、2小时血糖、胆固醇、有害脂肪、有用脂肪、甘油三酯、尿素、肌酐、活动率、吸烟、8个并发症包括高血脂、眼部并发症、高血压、透析史、心脏问题、中风、糖尿病足溃疡、糖尿病昏迷
7. 妇科手术和机器学习:并发症和住院时间预测
Gynecological Surgery and Machine Learning: Complications and Length of Stay Prediction.
2021,In book: Public Health and Informatics,ISO Press
在这项研究中,我们使用机器学习方法开发预测妇科手术后住院时间、并发症和手术时间的模型。本研究是根据女性生殖系统疾病患者的资料进行的。这些患者于2010-2020年期间入住Almazov国家医学研究中心(俄罗斯圣彼得堡)。这项研究包括8170份住院病人的电子医疗记录,包括3500份手术协议。资料包括生活记录、疾病记录、实验室检查、严重程度、手术结果、主要和共病诊断、并发症、病例结果。数据集随机分成70%的训练数据集和30%的测试数据集。使用测试数据集进行的验证提供了以下手术模型后住院时间的预测指标。训练得分:ROC曲线下面积(AUC): 0.9582230976834093;K-fold CV平均得分:-8.73;MSE: 5.65;RMSE: 2.83
网格搜索,5折交叉验证,平均绝对误差(MAE)作为性能指标寻找模型及其参数
用了一系列在scikit中可用的分类模型:随机森林、梯度Boost和Voiting回归器,
计算Shapley指数以确定最常见的并发症预测因子
妇科手术并发症和住院时间预测 | 2021,In book: Public Health and Informatics,ISO Press | 网格搜索,5折交叉验证,平均绝对误差(MAE)作为性能指标寻找模型及其参数 | 患者于2010-2020年期间入住Almazov国家医学研究中心(俄罗斯圣彼得堡)。 |
数据没描述和代码都没给
8. COVID-19患者并发症的临床预测系统
Clinical prediction system of complications among COVID-19 patients: a development and validation retrospective multicentre study
paperwithcode
使用了2020年4月1日至4月30日期间在阿联酋阿布扎比(AD) 18家医院收治的3352名COVID-19患者的数据。根据地理邻近程度将医院划分为AD Middle region和AD Western & Eastern region,分别为A和B,评估我们提出的系统的学习通用性。利用入院前24小时收集的数据,基于机器学习的预后系统预测住院期间发生七种并发症中的任何一种的风险。并发症包括继发性细菌感染、AKI、ARDS,以及与患者病情加重相关的生物标志物升高,包括d-二聚体、白细胞介素-6、转氨酶和肌钙蛋白。在训练期间,系统对每个特定于复杂性的模型应用排除标准、超参数调优和模型选择。该系统在所有并发症和两个区域都实现了良好的准确性。在测试集A(587例患者)中,AKI的AUROC为0.91,大多数其他并发症的>为0.80 AUROC。在测试组B(225例患者)中,AKI、肌钙蛋白升高和白细胞素-6升高的各自系统的AUROC为0.90,而大多数其他并发症的>为0.80 AUROC。我们系统选择的表现最好的模型主要是梯度增强模型和logistic回归模型
我们将入院后24小时内记录的数据作为我们预测模型的输入特征。这些数据包括与患者基线信息、人口特征、生命体征和实验室检测结果相关的连续和分类特征。在患者的基线和人口信息、年龄和身体质量指数(BMI)被视为连续的特性,而性,预先存在的疾病(如高血压、糖尿病、慢性肾病和癌症),在入学记录和症状(例如,咳嗽,发烧,呼吸急促,喉咙痛,和皮疹)被视为二元特征。
对于生命体征测量和实验室检测结果,我们排除了任何用于确定是否存在并发症的变量,以避免标签泄露。特别地,我们考虑了7个连续的生命体征特征,包括收缩压、舒张压、呼吸频率、外周脉搏频率、氧饱和度、辅助温度和格拉斯哥昏迷评分,以及19个实验室检测结果,包括白蛋白、活化部分凝血酶活时间(APTT)、胆红素、钙、氯、c反应蛋白、铁蛋白、红细胞压积、血红蛋白、国际标准化比(INR)、乳酸脱氢酶(LDH)、淋巴细胞计数、凝血酶原时间、降钙素原、钠、红细胞计数
(红细胞)、尿素、尿酸和中性粒细胞计数。所有生命体征测量和实验室检测结果被处理为最小、最大和平均统计量。我们还定义了7个二进制输入特征来表示复杂性是否在入院的前24小时内发生,以允许模型从复杂性之间的任何依赖关系中学习
(2020)https://arxiv.org/pdf/2012.01138v1.pdf
https://github.com/nyuad-cai/COVID19Complications
9. 通过潜在因素建模的迁移学习改进手术并发症的预测
Transfer Learning via Latent Factor Modeling to Improve Prediction of Surgical Complications
使用潜在因素模型来学习更大的源数据集和目标数据集之间的依赖结构。该方法的目的是建立一个手术患者的风险评估模型,使用机构和国家的手术结果数据。国家手术结果数据是通过NSQIP(国家手术质量改进计划)收集的,该数据库包含来自700多家不同医院的近400万患者。迁移学习获得潜在因素(latent factor)模型+hierarchical prior on the loadings matrix以适当地解释数据中的不同协方差结构。通过scale mixture formulation using stick-breaking properties扩展了这个模型来处理更复杂的人群之间的关系
居然没有代码
(2016)https://arxiv.org/pdf/1612.00555v1.pdf
10. Interpretable Multi-Task Deep Neural Networks for Dynamic Predictions of Postoperative Complications
用于术后并发症动态预测的可解释多任务深度神经网络
假设新的深度学习技术在预测术后并发症方面优于logistic回归模型。在一项单中心纵向队列研究中,43,943名接受52,529例重大住院手术的成年患者中,对于所有9种并发症,深度学习比logistic回归具有更大的辨识度。当充分利用术前和术中生理时间序列电子健康记录数据时,预测性能最强。单一的多任务深度学习模型比单独的模型在单个复杂情况下训练的效果更好。综合梯度解释机制显示了缺失数据的重要意义。可解释的、多任务的深度神经网络可以做出准确的、患者水平的预测,有可能增强外科决策。
没代码
(2020)https://arxiv.org/pdf/2004.12551v1.pdf
11.通过多视图多任务学习对癌症幸存者的心脏并发症风险分析
Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning
现有的方法面临着两个挑战。首先,数据异质性是指那些仅从单一视图利用临床数据的方法,而数据可以从多个视图考虑(例如,临床访问顺序,临床特征集)。其次,广义预测与大多数专注于单任务学习的方法有关,而每一个并发症的发生都是独立预测的,导致了次优模型。我们提出了一个多视图多任务网络(MuViTaNet)来预测多种并发症的发生,以解决这些问题。特别是,MuViTaNet通过使用多视图编码器对患者表示进行了补充,将临床数据视为临床访问序列和临床特征集,从而有效地提取信息。此外,它利用来自相关标记和未标记数据集的额外信息,通过使用新的多任务学习方案来进行更准确的预测,从而生成更一般化的表示
(2021) https://arxiv.org/pdf/2109.12276v1.pdf
https://github.com/pth1993/muvitanet
没有数据
高维小样本上使用演化算法的多分类
第一小节在知乎小样本高维特征问题搜索时,答主推荐的论文
Wei T, Liu W L, Zhong J, et al. Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming[J].
IEEE Transactions on Emerging Topics in Computing, 2020(JCR Q1)
表格数据特征提取
多类分类是数据挖掘中最基本的任务之一。然而,传统的数据挖掘方法依赖于模型假设,在高维低样本(HDLSS)数据上往往存在过拟合问题。为了从另一个角度解决HDLSS数据的多类分类问题,
使用了Genetic Programming (GP),一种intrinsic evolutionary分类算法,可以实现特征自动构建,无需模型假设。本文提出了一种基于集成的遗传规划分类框架,即基于sigmoid的集成基因表达式编程(SEGEP)。为缓解基于gp的多类分类器的输出冲突问题,提出的方法采用一种具有连续松弛的灵活概率表示来更好地集成所有二进制分类器的输出,是一种有效的数据分割策略,进一步提高集成性能。以及一种新的采样策略来改进现有的基于gp的二值分类器。
Genetic Programming (GP), an intrinsic evolutionary classification algorithm that can implement feature construction automatically without model assumption. This paper develops an ensemble-based genetic programming classification framework, the Sigmoid-based Ensemble Gene Expression Programming (SEGEP). To relieve the problem of output conflict in GP-based multiclass classifiers, the proposed method employs a flexible probability representation with continuous relaxation to better integrate the output of all the binary classifiers, an effective data division strategy to further enhance the ensemble performance, and a novel sampling strategy to refine the existing GP-based binary classifier. The experiment results indicate that SE-GEP can attain better classification accuracy compared to other GP methods.
实验结果表明,SE-GEP与其他GP方法相比,具有更好的分类精度。通过与其他具有代表性的机器学习方法的比较,表明SE-GEP是一种具有竞争力的HDLSS数据多类分类方法。
代码
参考:
https://zhuanlan.zhihu.com/p/378444073
基于演化算法(Genetic Programming)的自动特征构建(automated feature engineering)算法Evolutionary Forest,特征工程方面
automated feature engineering based on
scikit-learn包中的一个问题 “diabetes”,其目标是预测一年后该疾病的进展情况。
对比随机森林和Evolutionary Forest
该框架的一个更重要的目标是获得更多优质的可解释特征,从而提高主流机器学习模型的性能。因此,我们可以基于impurity reduction计算特征的重要性,然后根据这些重要性分数对所有特征进行排序
放弃使用原来的特征,只保留构造好的特征,训练基于新特征的随机森林
自动构建的特征大幅度改进了XGBoost和随机森林的性能。基于这个实验的结果,我们可以得出结论,Evolutionary Forest不仅是一种有效的回归模型构建方法,可以构建一个强大的回归模型,也作为一个自动特征生成方法,可以用于生成可解释的特征以及提高现有机器学习系统的性能
代码:
https://github.com/zhenlingcn/EvolutionaryForest
scikit数据集
scikit-learn包中为合成数据,难以作为源域使用
有关医学的数据集
1.load_breast_cancer 乳腺癌数据集
乳腺癌数据集有569条记录,30个特征
2.load_diabetes 糖尿病数据集:
数据集共442条信息,特征值总共10项, 如下:
# age:年龄
# sex:性别
# bmi = body mass index:身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)
# bp = blood pressure :血压
# s1,s2,s3,s4,s4,s6 (六种血清的化验数据)
3.load_linnerud 体能训练数据集
集成特征选择(高维、低样本数据)
Ensemble feature selection in high dimension, low sample size datasets: Parallel and serial combination approaches
高维、低样本数据集的集成特征选择:并行和串行组合方法,2020年
Knowledge-Based Systems(JCR Q1)跨学科、面向应用(interdisciplinary and applications-oriented)的期刊
特征选择方法可以分为三类,filter、wrapper和embedded methods[10]、[11]、[12]。一般来说,过滤方法通过使用一些评分函数对给定的特征进行排序,以探索数据的内在属性。另一方面,包装器和嵌入式方法在选择过程中涉及到与分类器的交互,前者优化分类器以搜索最优特征子集,后者将搜索构建到分类器结构中。
集成学习改进的特征选择(并行、串行组合结合并、交、多交方法中两种或三种不同的特征选择结果)
选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库[43]中收集
数据集:
No. | Dataset | Features | Instances | Classes |
1 | SPECTF | 44 | 267 | 2 |
2 | segmentationData | 58 | 706 | 2 |
3 | Sonar | 60 | 208 | 2 |
4 | MEU-Mobile KSD 2016 | 71 | 2856 | 56 |
5 | urban_land_cover | 147 | 675 | 9 |
6 | MUSK_Clean1 | 166 | 476 | 2 |
7 | SCADI | 205 | 69 | 6 |
8 | Arrhythmia | 278 | 420 | 12 |
9 | Madelon | 500 | 2600 | 2 |
10 | Secom | 564 | 55 | 2 |
11 | Gastroenterology | 698 | 152 | 2 |
12 | ORL | 1024 | 400 | 40 |
13 | Colon | 2000 | 62 | 2 |
14 | oh15.wc | 3100 | 913 | 10 |
15 | oh10.wc | 3238 | 1050 | 10 |
16 | leukemia | 7070 | 72 | 2 |
17 | Amazon_initial_50_30_10000 | 10,000 | 1500 | 50 |
18 | orlraws10P | 10,304 | 100 | 10 |
19 | CLL_SUB_111 | 11,340 | 111 | 3 |
20 | SMK_CAN_187 | 19,993 | 187 | 2 |
| 肝移植项目 | 587 | 425 | 5+1 |
RNN特征选择(高维小样本)
基于递归神经网络的高维小样本微阵列数据特征选择
2019 IEEE International Conference on Big Data
一种基于递归神经网络(RNN)的特征选择框架来选择特征子集。具体地说,该框架已应用于从微阵列(基因表达数据实验结果)数据中选择特征用于细胞分类(cell classification)
四种具有不同结构的递归神经网络的特征选择模型,包括门控递归单元(GRU)、长短期记忆(LSTM)、RNN和双向LSTM
DNP
数据集:
Data Sample size Dimensionality Data Sample size Dimensionality
Colon 62 2,000 ALLAML 72 7,129
Prostate GE 102 5,966 SMK CAN 87 187 19,993
Leukemia 72 7,070 GLI 85 85 22,283