论文笔记——恶意主机检测:半监督学习、PU learning

半监督学习

(一) supervised PU Learning

(二) distance-based PU learning

 背景

  在某些情况下,由于过少正例(如恶意主机样本)(非平衡数据集),另外因为安全人员只分析了高严重性的警报(正例标签是有偏差1的)。因此,传统的监督学习算法不能直接使用。

 相关工作

  标签传播(label propogation)和Positive Unlabeled (PU)Learning

   标签传播是用于根据已知标签的正样本在无标签样本中推断新标签的方法,目的在于使不平衡的数据集变得更加平衡。目前在包含正例和无标签的数据样本上进行学习的方法分为有监督集成学习和半监督的图推理。
  前者通常采用两步法,第一步在无标签的数据集中,标记可靠的正例和/或负例;第二步,一系列的分类器在可靠的标签数据上训练,并返回预测值。然后根据概率进行排序,找出所谓可靠的正样本和负样本,加入到训练集中,重新预测剩余的样本,每轮如此重复,知道满足条件。甚于这类的学习方法应用场景在文本/网页分类,时间序列分类以及疾病基因识别。参考: text-01
   后者半监督的标签传播建立在拉普拉斯图相似矩阵2上,主要思想在于相似的数据点应当具有相似的标签。算法基于样本之间的相似度构建了一个概率转移矩阵,从而持续进行标签传播直至收敛。但这些算法开始需要正例和负例样本,对于本论文的场景中,只有正例样本可用,因此不适合。
   论文则是通过度量标签传播的偏重,以及提出基于距离的半监督PU Learning方法解决这个问题(标签传播?)。

   样本选择偏差

   样本选择偏差在Cortes的文章中定义,设X={xi,i=1,…,n}为训练样本,Y是样本对应的标签,D是X*Y的真实分布,,样本选择偏差即样本z=(x,y)中,并非所有的样本都能够用于机器学习分类算法。因此对于算法来说,看到的是有偏的标签数据。样本选择偏差能够通过0-1之间的随机变量表示,1代表样本被选择,0代表样本没有被选择。根据贝叶斯公式,Cortes定义了偏差的公式:
P r D [ z ] = P r [ s = 1 ] P r [ s = 1 ∣ x ] P r D ′ [ z ] Pr_{D}[z]=\frac{Pr[s=1]}{Pr[s=1|x]}Pr_{D'}[z] PrD[z]=Pr[s=1∣x]Pr[s=1]PrD[z]
   这里 P r D [ z ] Pr_{D}[z] PrD[z]代表在真实但是未知的分布下取得z的概率, P r D ′ [ z ] Pr_{D'}[z] PrD[z]代表在有偏但是已知的分布下取得z的概率。

 论文方法

  1. 论文提出基于距离的PU Learning方法,使用四种距离来度量样本与正例之间的相似度,使用Gaussian Copula函数3捕捉它们之间的关系,并将四种距离度量方法集成为一个联合概率密度,从而可以直接用于推断新的标签。方法的优点在于减少了推断标签的偏重(bias),而传统的supervised PU Learning方法会增加偏重(bias)。
  2. 使用KNN graph method,提出了量化偏重(bias)的方法:
  3. t-SNE可视化,表明基于距离的PU Learning方法使得到的数据集分布更加均匀,有更高的Kozachenko-Leonenko entropy4

 场景

  1. 数据集只有一类标签
  2. 只有少量的数据是有标签的
  3. 数据集中的标签是严重“有偏的
    例:
      恶意主机检测中,首先标签数据只有一个正例类别,没有负例(正常的主机)。另外,数据集中的正例不符合真实的分布,真实情况下恶意主机是很少的,只有1-2%被标记,只占。其次分析人员只分析了高严重性的主机,大部分的警报是被忽略的,是无标签的。
      标签偏重(bias)在一个算法越是尝试拟合偏重的标签时,就会越严重,从而导致模型的泛化能力在无偏样本中变差。最终导致的结果是构建在有偏样本中之上的机器学习系统会引导分析人员只分析那些与已有高严重性样本类似的样本。而机器学习模型又收到分析人员分析的样本和结果的影响,从而导致偏重越来越严重。一个解决方法是随机选择样本供分析人员分析,但是这项工作耗费人力同时缺乏灵活性。

 步骤

  1. 使用标签传播,推断出更多的正例。然后把原始正例和推断出的正例的标签设为1,甚于的未标记标签设为0.由此转变为传统的二分类问题,可以采用不同的分类器进行分类,文中使用逻辑回归模型。
  2. 标签偏重的度量:由于安全分析人员只针对高严重性的警报进行分析,因此原始标签偏重于高严重性的警报。与样本选择误差类似,用0-1之间的随机变量表示标签偏差,1代表样本被标签,标签偏差如下:
    B i a s = ∑ i P r [ l = 1 ] P r [ l = 1 ∣ x i ] Bias=\sum_{i}\frac{Pr[l=1]}{Pr[l=1|x_{i}]} Bias=iPr[l=1∣xi]Pr[l=1]
      其中, P r [ l = 1 ] Pr[l=1] Pr[l=1]为正例标签数量与所有样本数量的比值,是独立于样本x的常量。分母采用KNN图进行计算,KNN图 G = ( V , E , S ) G=(V,E,S) G=(V,E,S)中, V V V是训练样本点集合, E E E是顶点之间的边,以及表示顶点之间相似度的 S = { S i , j } S=\{S_{i,j}\} S={Si,j}, S i , j S_{i,j} Si,j定义如下:
    f ( x ) = { e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 σ 2 ) , x i ∈ N k ( x j ) , x j ∈ N k ( x i ) 0 , o t h e r w i s e f(x)=\left\{ \begin{aligned} exp(-\frac{||x_{i}-x_{j}||_{2}}{2\sigma^{2}}),&&x_{i}\in N_{k}(x_{j}),x_{j}\in N_{k}(x_{i})\\ 0, &&otherwise \end{aligned} \right. f(x)= exp(2σ2∣∣xixj2),0,xiNk(xj),xjNk(xi)otherwise
      其中, N k ( x j ) N_{k}(x_{j}) Nk(xj)表示 x i x_{i} xi的K近邻。上述的条件概率通过计算计算正例的K近邻中标签为1即同为正例占K近邻的比例,即如下公式:
    P r [ l = 1 ∣ x i ] ≈ ∑ 1 N k ( x i ) ( x p ) k i 1 N k ( x i ) ( x p ) : = { 1 , i f     x p ∈ P ⋂ N k ( x i ) 0 , o t h e r w i s e Pr[l=1|x_{i}]\approx \frac{\sum1_{N_{k}(x_{i})}(x_{p})}{k_{i}}\\ 1_{N_{k}(x_{i})}(x_{p}) := \left\{ \begin{aligned} 1, &&if\ \ \ x_{p} \in P \bigcap N_{k}(x_{i})\\ 0,&&otherwise \end{aligned} \right. Pr[l=1∣xi]ki1Nk(xi)(xp)1Nk(xi)(xp):= 1,0,if   xpPNk(xi)otherwise
      对于所有的样本点,计算偏重 b i b_{i} bi,并累加。
  3. Distance-based PU Learning
      这一步的目的是为了从无标签数据中推出更多的正例,用于后续的分类算法。鉴于supervised PU Learning方法增加了标签的偏重,Distance-based PU Learning计算样本点(所有样本点)到正例点中心的四种距离,再使用Copula function集成四种用于计算相似度的距离方法为一个联合概率密度。四种距离包括曼哈顿距离、马式距离、欧氏距离、堪培拉距离。得到四种距离之后,需要为每种距离的边缘分布建立一个多元模型,不仅用于捕捉不同距离之间的依赖关系,同时将不同的距离相似度一起映射为一个相似度得分,论文采用了Gaussian Copula,参数通过maximum log-likelihood method估计。
  4. 通过Gaussian Copula 分布输出每个样本的得分,将10%最低概率密度的样本标记为1.

参考文献
[1] Shuning Wu, Joel Fulton, Ningwei Liu, Charles Feng, and Ligang Zhang. 2019. Risky Host Detection with Bias Reduced Semi-Supervised Learning. In Proceedings of the 2019 International Conference on Artificial Intelligence and Computer Science (AICS 2019). Association for Computing Machinery, New York, NY, USA, 34–40. DOI:https://doi.org/10.1145/3349341.3349365
[2] Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, and Zhi-Hua Zhou. 2017. POSTER: A PU Learning based System for Potential Malicious URL Detection. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (CCS '17). Association for Computing Machinery, New York, NY, USA, 2599–2601. DOI:https://doi.org/10.1145/3133956.3138825


  1. 样本选择偏差:根据输入空间和输出空间的联合分布生成了一些随机样本点之后,再经过随机筛选过程的样本点才进入训练数据集中,此时的训练数据集不是关于联合分布的简单随机样本,因此数据集是有偏的。详见:样本选择偏差:sample selection bias ↩︎

  2. 拉普拉斯图相似矩阵: ↩︎

  3. Copula函数把边缘分布函数与联合分布函数联系起来,是研究变量间相依性的一种有效工具。。详见:copula 函数 ↩︎

  4. Kozachenko-Leonenko entropy: ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值