【研究方向】可应用于网络安全的神经符号(Neural-Symbolic)学习算法
网络安全的许多问题(恶意检测、隐私权限、欺诈检测、取证分析等)都可以看做高阶的智能标签判定问题,传统的机器学习方法虽然可以胜任这类分类任务,但是由于网络安全问题的异常样本少、泛化样本多,因此擅长拟合分布的传统算法在真实场景下易错判/漏判;神经符号(Neural-Symbolic)学习算法是我博士期间希望深入研究的一个方向,并且已经取得了一些阶段性的成果,这种结合深度学习和符号推理的算法可以兼具强拟合能力和高阶逻辑推理能力,以至于能够超越数据集,成为更好“理解”网络安全问题的检测算法。
研究方法设想
首先基于各种网络安全的数据集(比如公开的KDD 99/HTTP CSIC 2010或者真实的其他数据集),建立其符号图谱形式的表征(比如知识图谱)
G
\mathcal{G}
G,接下来需要对图谱的总体结构和局部细节进行Embedding的方法
P
(
x
∣
g
)
\mathbb{P}(x|g)
P(x∣g),即映射到一个实向量特征空间
R
n
\mathbb{R}^n
Rn(比如运用GCN等图嵌入方法),到这一步就分别得到了网络安全历史数据的符号表征和数值表征;
接下来是建立更深层次的映射
P
(
F
∣
x
1
,
.
.
.
,
x
k
)
\mathbb{P}(F|{x_1,...,x_k})
P(F∣x1,...,xk)(可以是深度学习网络或者其他映射算法比如多项式或者矩阵)来构造算子空间
F
R
\mathcal{F}^{R}
FR,使得数据集中的每个基本概念实体是可运算实现变换的(如图,比如某个指令会被计算出是非法的,或者某个IP是和这个判定相关的),这相当于就建立了在网络安全知识领域的推理算法。
以上就是整个框架的简述,而如何构造有效的图Embedding算法 P ( x ∣ g ) \mathbb{P}(x|g) P(x∣g)和算子构造算法 P ( F ∣ x 1 , . . . , x k ) \mathbb{P}(F|{x_1,...,x_k}) P(F∣x1,...,xk)即需要详细研究的问题。