文章目录
1 基于马尔科夫边界发现的因果特征选择算法综述
1.1 摘要
- 是什么:因果特征选择算法(也称马尔科夫边界发现【因果特征选择算法和马尔科夫边界发现是等价的关系吗】)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征【已知特征集合和目标变量,选择与目标存在因果关系的特征,那适用于政策工具的选择吗?】。
- 分类:分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法【注意异同点、每类的经典算法及研究进展】。
- 改进及应用:因果特征选择在**特殊数据(半监督数据、多标签数据、多源数据、流数据等)**中的改进和应用。
1.2 基本原理与现有方法分类
1.2.1 问题定义与基础理论
MB相关的基本定义和基础理论。本文使用U表示特征集合,T表示目标变量(标签)。MB的概念来源于贝叶斯网络。
1.3 现有马尔科夫边界学习方法分类及其基本原理
1.4 半监督MB发现算法
许多真实世界应用通常难以获取有标签的样本,但容易收集无标签数据。为了同时利用无标签和有标签数据学习MB,学者们提出一些半监督MB发现方法,包括分治法BASSUM (Bayesian Semi-Supervised,使用一个基于半监督数据改进的 G 2 G^2 G2,使有标签和无标签数据中的信息可同时用于判断变量之间的条件独立关系)和直接法Semi-IAMB
1.5 因果特征选择与传统方法的异同
- MB发现算法与因果特征选择算法在概念和功能上都是等价的;MB集合就是所选特征集合,其中的特征就是算法选择的因果特征;本文提到的所有单重MB发现算法都可直接用于因果特征的选择。但多重MB发现算法会选择多个特征子集,需要进一步选择最合适的特征子集. 一般会根据特征集合的规模、特征获取的难易程度和成本等因素考虑最终使用哪个MB集合。
- 因果特征选择属于过滤式,该类方法时间效率较高,对过拟合问题更鲁棒。传统过滤法通常利用评分函数评估特征与目标变量之间的关联性,并根据分数排序特征并选择相关特征,而评分函数通常基于条件互信息的概念而设计,这与MB发现算法中条件独立性测试的本质是一致的。但是,传统过滤法与MB发现算法对条件互信息的度量精确程度不同,这可从互信息度量中条件集合的规模进行评价。
- MB 发现算法具有可靠的理论保证,能证明MB集合是最优的特征子集,而传统过滤法并未在理论上给出最优特征子集的标准解.
1.6 总结
- 马尔科夫边界发现算法就是因果特征选择算法吗?
- 可以从那几方面进行方法创新?
- 如何与智能优化算法相结合?