会议名称:WWW '22: The ACM Web Conference 2022
DOI:10.1145/3485447.3512215
ISBN:978-1-4503-9096-5
阅读原因
1.安全相关 2.方班需要
核心内容
把对抗性社交机器人学习ASL问题建模为一个马尔科夫决策过程MDP,并通过分层强化学习HRL框架来优化问题。
ACORN框架:AgentⅠ负责决策活动行为;AgentⅡ负责选择下面要选择的追随者。
π1表示决策过程,根据当前状态s进行动作行为决策(例如T,R,A,M中的一种)
π2表示根据当前状态s选择一个新的追随者u,如果在上一步的决策中做出的是互动类行为(如R,A,M)
优点
存活周期长,网络影响比高
存在问题
框架可能会被恶意利用;只考虑了与四种活动相关的机器人检测器的统计特征;由于数据集是推特平台上的,因此在面对其他的社交平台可能兼容性不会很好;可以与nlp领域相结合。
收获
简要了解了一些学术概念比如马尔可夫决策、分层强化学习框架等。拓展了眼界。
课后分析
报告人并没有很好地解释评价指标以及为什么选用这样的评价指标。不过毕竟是新学期第一次汇报,大家都不太了解过程,摸着石头过河,可以理解。