Deep Reinforcement Fuzzing (SPW 2018) 本文通过使用马尔可夫决策过程(Markov Decision Processes)的概念,将Fuzzing形式化成一个强化学习(Reinforcement Learning)的过程。这使得我们可以应用现有的Deep Q-learning算法来优化奖励(Rewards)。 通过Markov Decision Processes将Fuzzing模型化的结构如下图所示。 论文代码未开源。