【文献调研】半监督菌群优化因果特征选择是否可行?

1 基于马尔科夫边界发现的因果特征选择算法综述

1.1 摘要

  • 是什么:因果特征选择算法(也称马尔科夫边界发现【因果特征选择算法和马尔科夫边界发现是等价的关系吗】)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征【已知特征集合和目标变量,选择与目标存在因果关系的特征,那适用于政策工具的选择吗?】。
  • 分类:分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法【注意异同点、每类的经典算法及研究进展】。
  • 改进及应用:因果特征选择在**特殊数据(半监督数据、多标签数据、多源数据、流数据等)**中的改进和应用。

1.2 基本原理与现有方法分类

1.2.1 问题定义与基础理论

MB相关的基本定义和基础理论。本文使用U表示特征集合,T表示目标变量(标签)。MB的概念来源于贝叶斯网络。
马尔科夫边界及实例
因果特征选择

1.3 现有马尔科夫边界学习方法分类及其基本原理

马尔科夫边界学习方法分类

1.4 半监督MB发现算法

许多真实世界应用通常难以获取有标签的样本,但容易收集无标签数据。为了同时利用无标签和有标签数据学习MB,学者们提出一些半监督MB发现方法,包括分治法BASSUM (Bayesian Semi-Supervised,使用一个基于半监督数据改进的 G 2 G^2 G2,使有标签和无标签数据中的信息可同时用于判断变量之间的条件独立关系)和直接法Semi-IAMB

1.5 因果特征选择与传统方法的异同

  • MB发现算法与因果特征选择算法在概念和功能上都是等价的;MB集合就是所选特征集合,其中的特征就是算法选择的因果特征;本文提到的所有单重MB发现算法都可直接用于因果特征的选择。但多重MB发现算法会选择多个特征子集,需要进一步选择最合适的特征子集. 一般会根据特征集合的规模、特征获取的难易程度和成本等因素考虑最终使用哪个MB集合。
  • 因果特征选择属于过滤式,该类方法时间效率较高,对过拟合问题更鲁棒。传统过滤法通常利用评分函数评估特征与目标变量之间的关联性,并根据分数排序特征并选择相关特征,而评分函数通常基于条件互信息的概念而设计,这与MB发现算法中条件独立性测试的本质是一致的。但是,传统过滤法与MB发现算法对条件互信息的度量精确程度不同,这可从互信息度量中条件集合的规模进行评价。
  • MB 发现算法具有可靠的理论保证,能证明MB集合是最优的特征子集,而传统过滤法并未在理论上给出最优特征子集的标准解.

1.6 总结

  • 马尔科夫边界发现算法就是因果特征选择算法吗?
  • 可以从那几方面进行方法创新?
  • 如何与智能优化算法相结合?

2 特征选择算法及其在因果发现中的研究与应用

2.1 摘要

  • 最大相关最小冗余准则与分类器结合,提出一种“封装式”特征选择方法FEFS,该方法依次为每个特征计算评分,然后再通过分类器计算并判断这些特征是否能有效提高模型精度,从而确定是否选择该特征。
  • 基于FEFS算法设计出一种应用在肺结节语义特征预测领域的计算机辅助诊断系统(CAD)。使用肺结节CT图像中的数字特征,通过快速的特征评分计算与分类器搜索,有效剔除大量无效图像特征,通过模型训练最总输出相关肺结节语义特征等级。
  • 基于对数似然函数,重新定义相关特征和冗余特征,从因果图结构的角度提出一种比较的方法来识别目标节点的候选邻居节点。提出一种从非线性弱加性噪声数据中学习因果结构的算法NLCDSF,该算法作为一种贝叶斯网络结构增量学习算法,在线分析特征之间的关系,以比较的方法快速识别目标节点的候选邻居,并有效缩小后续定向过程的搜索范围。

2.2 总结

  • 本文所针对的特殊数据是流数据,与标签缺失数据还有所不同,虽然有些文字可以参考,但建议再找找其他相关算法。
  • 需要考虑一个问题,政策是由降维后的特征向量和类别属性组成的集合所描述,我们需要考虑分析政策之间的关联关系,由各个单一政策选择出不同的政策组合,其实与特征选择无关,或者是不同政策可以算是不同的列,需要注意一下因果机器学习与因果特征选择具体如何应用、差异在哪里。

3 因果特征选择与结构学习算法研究

3.1 摘要

  • 是什么:因果特征选择是发现类属性的贝叶斯网络(Bayesian network,BN)的子结构,即马尔科夫毯(Markovblanket,MB),该 MB 由类属性的父母(直接原因),孩子(直接结果)和配偶(直接结果的其他直接原因)组成,从而明确地推导出局部类属性和特征之间的因果关系
  • 分类同步类因果特征选择方法将当前选择的所有特征作为条件集来牺牲精度以提高效率,而分治类因果特征选择方法尽管穷举了所选特征的子集以提高精度,但是从父子节点(parents and children,PC)的 PC中寻找配偶牺牲了效率。
  • 提出算法:① 一种平衡的 MB 发现算法 BAMB(BAlanced MB)。BAMB将找候选 PC 和配偶,以及删除假 PC 和配偶统一到一个循环内,从而尽可能早的删除错误 PC 和配偶,以使条件集的长度始终保持在最小的范围来平衡效率和准确率;② **基于特征选择的局部因果结构学习算法 LCS-FS(Local Causal Structure learningby Feature Selection)**来提高现有算法的效率。具体来说,LCS-FS 使用无需条件集的特征选择方法寻找 PC,并通过在 PC 中寻找割集的方式来帮助寻找 V 结构,进而对目标节点的父亲节点和孩子节点进行区分;③ 高效且准确的任意部分的因果结构学习算法,称为 APSL(Any Part of BN Structure Learning)。APSL将 MB 中的 V 结构分为 collider V 结构和 non-collider V 结构,并在每次迭代中递归的寻找 collider V 结构和 non-collider V 结构,直到感兴趣部分的 BN 结构完全定向。为提高 APSL 的效率,本文进一步设计了基于特征选择的 APSL 算法,APSL-FS。在一系列的标准 BN 数据集上的实验上验证了 APSL 和 APSL-FS 的有效性。

3.2 总结

  • 就因果特征选择的理解与前两篇文章一致;
  • 需要明确因果特征选择和因果推理方法是否一致,确定使用因果推理、因果机器学习、还是因果特征选择;
  • 确定之后要看能否和菌群算法相结合

4 基于因果稳定学习的乳腺肿瘤分类研究及应用

(因果稳定学习是啥?敖 基于因果推断)

4.1 摘要

4.1.1 构建基于因果稳定学习的乳腺肿瘤诊断模型

基于因果学习的乳腺肿瘤分类模型

  • 先把报告结构化,以此获取报告丰富的语义层次。
  • 之后,使用非线性函数将输入数据映射到低维空间,在保留原始特征信息的同时降低特征维度,以此缓解数据的缺失情况。
  • 最终,利用因果推理学习全局平衡权重,并使用该权重指导模型的FS

4.2 因果推理学习

  • Pearl 将因果推断分为三个层次,自底至顶分别为:关联、干预、反事实。最底层的关联(Association)便是基于大量数据学习变量之间的关联关系,但这种关联统计只能分析出两个变量是否相关,而无法挖掘出两者之间是否存在影响,即一个变量的改变是否是由另一个变量导致的。中间是干预(Intervention),通过对一个变量进行干预,观察另一个变量是否会改变。若一个变量的改变会导致另一个变量的改变,便可得出两个变量之间具有因果关系。因此,干预便可发现变量之间是否存在因果关系。最高级别是反事实(Conterfactuals),反事实是因果推理中的一种假设,假设过去发生的事实不在发生,结果是否会发生变化,也就是“执果索因”。

  • 寻找所观测变量与目标之间的相关性进行模型的决策,这基于数据“独立同分布”假设,而现实世界数据往往并不遵循这一假设,使得模型在实际使用中效果并不理想。当前的因果推理研究旨在通过干预或反事实根据已发生的结果推理出结果与结果发生条件的因果关系,使得模型基于变量间因果关系进行学习,改善模型的稳定性。

  • 因果推断学习分类:实验性研究和观测性研究。实验性研究是因果推理研究中最为有效的研究方法,通过设计对比实验,将参与者随机分为对照组和实验组,控制无关变量,观察干预结果。该方法需要大量参与者,且可能存在伦理道德问题,目前普遍采用观测性研究方法从已有的数据集或可获取的数据中进行因果推理研究,主要模型有结构因果模型(structual causal model,通过构建因果图和结构方程来表示变量间因果关系,为概率因果模型)和潜在结果框架(potential outcome framework,潜在结果框架旨在估计不同干预下 Y 的潜在结果,将潜在结果与真实结果之间的差异定义为干预的干预效果,使用平均干预效果表示干预变量T 与结果 Y 的因果关系)。

  • 结构因果模型
    潜在结果框架

4.3 基于去相关的权重计算(可证明可行性)

为提高模型的稳定性,本节从因果推理的角度出发,利用去相关权重(Decorrelated Weighting, D-W)模块(这个模块得详细了解一下),学习一组权重,降低特征间的相关性,以此减小数据集之间的分布差异带来的影响,并使用该权重指导后续模型尽可能学习到正确的与标签相关的特征表示

4.4 总结

  • 政策工具和政策是否相同,在政策工具组合挖掘中,主体是政策工具,我们要分析政策之间的相关性,选用不同的政策工具组合(属性)的样本,可以用因果推理!

5 基于因果稳定学习的糖尿病性心血管疾病风险评估

5.1 摘要

  • 基于重要性评分的糖尿病代写特征选择方法,用于糖尿病数据集的特征分析和选取。
  • 提出了一个基于个体特征交互的因果稳定学习模型,用于糖尿病性心血管疾病风险评估。因果稳定和时间感知的长短期记忆网络+基于注意力机制将个体特征与 Causal-aware TLSTM中得到的疾病风险信息进行特征交互+模型使用全连接网络进行疾病风险评估

5.2 基于因果稳定和时间感知的LSTM

记全体就诊医疗特征中的一个特征变量为𝑍𝑖(𝑖 ∈ 𝑁𝑣, 𝑍𝑖∈ ℝ𝑁𝑛∗1),𝑁𝑛代表数据集中所有患者就诊次数总和,初始化因果权重为𝑊(𝑊 ∈ ℝ𝑁𝑛∗1, 𝛼 ∈ 𝑊);要达到协变量平衡,即让𝐸[𝑍𝑖𝑇𝛴𝑊𝑍−𝑖]与𝐸[𝑍𝑖𝑇𝑊]𝐸[𝑍−𝑖𝑇𝑊]的差值尽可能的小,其中𝛴𝑊= 𝑑𝑖𝑎𝑔(𝑊1, . . . , 𝑊𝑁𝑛),∑ 𝑊𝑗= 𝑁𝑛𝑁𝑛𝑗=1,𝑍−𝑖代表除𝑍𝑖之外的其余特征变量,因此目标函数可描述为公式(4-3)所示: 𝑊𝛼= 𝑎𝑟𝑔𝑚𝑖𝑛𝑊∑ ||𝐸[𝑍𝑖𝑇𝛴𝑊𝑍−𝑖] − 𝐸[𝑍𝑖𝑇𝑊]𝐸[𝑍−𝑖𝑇𝑊]||2𝑁𝑣2𝑖=1

5.3 总结

  • 还是和因果权重相关

6 基于1阶增广树研究构造K阶贝叶斯因果森林模型

  • 贝叶斯网络被视为概率因果模型的一种,它在处理不确定性和不完整性的问题上有突出表现。最早被提出的基于贝叶斯网络的分类模型是朴素贝叶斯(Naive Bayes,简称 NB),它具有严格的属性独立性限定,是目前为止结构最精简的也是限定最严格的贝叶斯分类算法。
  • 在 NB 算法的基础上,随着对相关属性间独立性假设不同程度地放松,产生了一批新的贝叶斯分类算法。目前得到广泛认可的贝叶斯分类算法有 TAN、AODE 和 KDB 等。其中 TAN 模型允许属性之间一阶依赖表达,AODE 拥有多模型结构,KDB 模型允许属性之间的高阶依赖表达。
  • 无论是允许属性的一阶依赖表达、多模型结构、还是允许属性之间高阶依赖表达的分类算法,如何能最大程度地包含最正确的属性之间的依赖关系成为了提高贝叶斯分类算法分类准确度的关键。
  • 一种全新的贝叶斯网络分类算法 KCF,它借鉴了 TAN、AODE 和 KDB三种经典贝叶斯分类算法的特点和优势,意在能够包含更多关键的属性依赖关系。
    KCF

7 “一带一路”倡议与中国企业全要素生产率 ——基于因果森林算法

  • 因果森林借鉴随机森林的一般方法,使用bagging的方法进行抽样建模,即使用无放回抽样方法从大小为N的原始数据集中随机抽取样本量为s (s<N) 的子集b,然后将其随机分成样本量为S/2的两个等份,分别为样本T和样本E。基于递归分区的方法生成一棵因果树,即以基尼系数为准则,基于贪心的方式,从根节点开始自顶而下对样本进行划分,需要注意的是,因果树采用的是二叉树,当满足划分条件时,即数据会被分到左子节点,否则被划分到右子节点,对于子节点采取相同的逻辑进行划分。
  • 对于因果树而言,在进行树的划分之前,需要先将样本分成两份,一份用于构造树,另一部分用于估计结果,即所谓的“诚实树”,“诚实树”会一直分裂,直至无新的节点产生为止。当因果树生成之后,即可用于估计处理效应,诚实树得到的个体异质性处理效应的估计量是无偏的,并且可以构造有效的置信区间。
  • 因果森林
  • 这篇文章中和参考中一样
  • 看这个东西能否和菌群算法结合?

8 区域协调发展政策效果的再评估—来自因果森林算法的异质性处理效应分析

因果森林
因果森林

9 半监督菌群优化因果特征选择是否可行?

  • MB发现方法或者因果森林进行特征选择思路类似过滤式FS,如果要体现因果推断的话,常用的菌群优化特征选择是没办法直接用的;
  • 或许可以的思路:利用因果森林做特征选择,结合菌群算法确定特征权重;参考半监督MB发现方法设计半监督学习机制。

参考文献

[1]吴兴宇,江兵兵,吕胜飞,王翔宇,陈秋菊,陈欢欢.基于马尔科夫边界发现的因果特征选择算法综述[J].模式识别与人工智能,2022,35(05):422-438.DOI:10.16451/j.cnki.issn1003-6059.202205004.
[2]沈安波. 特征选择算法及其在因果发现中的研究与应用[D].合肥工业大学,2021.DOI:10.27101/d.cnki.ghfgu.2021.000867.
[3]凌兆龙. 因果特征选择与结构学习算法研究[D].合肥工业大学,2020.DOI:10.27101/d.cnki.ghfgu.2020.000231.
[4]高晓猛. 基于因果稳定学习的乳腺肿瘤分类研究及应用[D].东华大学,2022.DOI:10.27012/d.cnki.gdhuu.2022.000729.
[5]张莉萍. 基于因果稳定学习的糖尿病性心血管疾病风险评估[D].东华大学,2022.DOI:10.27012/d.cnki.gdhuu.2022.000733.
[6]曹方圆. 基于1-阶增广树研究构造K-阶贝叶斯因果森林模型[D].吉林大学,2017.
[7]刘光园. “一带一路”倡议与中国企业全要素生产率[D].东北财经大学,2020.DOI:10.27006/d.cnki.gdbcu.2020.000364.
[8]胡尊国,熊云晖,邓理婕,彭新宇.区域协调发展政策效果的再评估——来自因果森林算法的异质性处理效应分析[J].经济学报,2022,9(02):201-235.DOI:10.16513/j.cnki.cje.2022.02.005.

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值