国科大《高级人工智能》沈老师部分——行为主义笔记

国科大《高级人工智能》沈老师部分——行为主义笔记

  • 沈华伟老师yyds,每次上他的课都有一种深入浅出的感觉,他能够把很难的东西讲的很简单,听完就是醍醐灌顶,理解起来特别清晰
  • 今年考试题目这部分跟往年基本一样,沈老师画的重点才是真的重点

一、蚁群优化算法

  • 思想:局部随机搜索+自增强
  • 基本原理:用蚂蚁的行走路径表示待优化问题的可行解,整个蚂蚁群体的所有路径构成待优化问题的解空间。
    蚂蚁依概率选择侯选位置移动,在经过的路径上留下信息素,信息素会随时间挥发,且信息素浓度大的路径更易被选取。 最终,整个蚂蚁会在正反馈的作用下集中到最佳的路径上,此时对应的便是待优化问题的最优解。
  • 算法过程:对m只蚂蚁随机放在n个城市,按照公式选择下一个城市的概率,此时公式正比于信息素浓度;
    所有蚂蚁周游完后,更新信息素(与路的长度、挥发速度相关);
  • 适用范围:一种离散的解空间搜索方法,适用于图中找最优路径

二、粒子群算法

  • 思想:随机优化

  • 基本原理:

    • 每个粒子对应于一个可行解,粒子通过位置和速度表示(速度:下一步移动的方向和距离,位置:求解问题的一个解)
    • 粒子根据对其他个体信息+位置的评价,更新自己的速度与位置;重复直到粒子群找到问题的最优解
  • 算法过程:

      1. 初始化粒子群:随机生成粒子的位置和速度;当前粒子最优位置 全局最优位置
      1. 循环直到满足条件
      • ①计算每个粒子的适应度函数
      • ②更新每个粒子历史最好适应度+相应位置,更新当前全局最好适应度+位置
      • ③更新粒子的速度和位置:速度 = 原速度倾向 + 回到历史最优位置的倾向 + 粒子群全局最优位置的倾向
        在这里插入图片描述
  • 适用范围:求解连续解空间的优化问题

三、多臂赌博机

  • 优化目标:摇固定次数的臂,获得期望累计奖励最大
  • 探索与优化关系:利用(即时奖励最大化) + 探索(长期奖励最大化)
  • 乐观初值法:为每个行为赋一个高的初始估值,初期每个行为都有较大机会被explore
  • UCB:选择潜力大的行为:依据估值的置信上界行为选择(当前估值高+不确定性高)

四、马尔科夫决策过程

  • 马尔科夫决策过程:采取行动a转变为下一状态后,获得奖励
  • 要素:状态、行为、模型
  • 奖励假设:最终目标能通过最大化累计奖励实现
  • 贝尔曼方程
    在这里插入图片描述
    • 格子世界问题(见后)

五、策略学习

动态规划:

  • 策略估值:策略=》估值
  • 策略提升:根据当前估值=>新策略
  • 策略迭代:从初始策略开始,迭代进行策略估值和策略提升,最终得到最优策略
  • 估值迭代:从初始状态估值开始,进行估值迭代,找到最优状态估,进而根据最优估值,贪心得到最优策略

动态规划、蒙特卡洛、时序差分联系和区别(图)

  • 动态规划:一层全展开
  • 蒙特卡洛:基于经验,一条线
  • 暴力搜索:全部展开
  • 时序差分:基于经验自举,只有一步的一条线

六、博弈

  • 博弈要素:局中人(策略制定者)、策略(可供局中人选择的行动方案)、效用函数(最大化自己的效用)
  • 零和博弈:效用函数玩家收益之和为0(剪刀石头布)
  • 最佳应对:针对其他人当前策略,自己当前策略优于自己其他策略
  • 纳什均衡:相对其他局中人的最佳应对(谁动谁吃亏)
  • 社会最优:和最优
  • 帕累托最优:至少一人最优
  • 囚徒困境:
    • 帕累托最优决策组合:(坦白,抗拒),(抗拒,坦白)和(抗拒,抗拒)
    • 纳什均衡策略组合:(坦白,坦白)不是帕累托最优
    • 社会最优策略组合:(抗拒,抗拒)
      在这里插入图片描述
  • 拍卖:
    • 首价:同时提交密封报价,选出价最高以出价购买;最优报价低于估价;人越多,报价越接近估价
      • 纳什均衡:每个竞拍者的报价低于其对商品的估价
    • 次价:同时提交密封报价,选出价最高以第二高出价购买
      • 纳什均衡:每个竞拍者会倾向于采用其对商品的估价进行报价
  • 讨价对象:双方对商品估值之差
  • maxmin、minmax策略:
    • Maxmin:最大化自己最坏情况下的利益
    • minmax:最小化对手最好情况下的利益
    • 零和博弈时收益对偶
  • 匹配市场:对于z: 7 5 2 - 5 2 0 = 2 3 0,3最大,选b
    在这里插入图片描述
  • 议价权
    • 稳定结局:未配对的边收益和>=1
      在这里插入图片描述
    • 纳什议价解:
      • 剩余价值:1-x-y
      • A收益=(1+x-y)/2
      • B收益=(1+y-x)/2
    • 均衡结局:任意配对边都满足
      在这里插入图片描述
    • 备选项:不与当前配对的话,能得到的最大收益

七、GNN卷积网络

  • spectral谱方法(数学方法)
    • 将图的拉普拉斯矩阵的特征向量作为基底,将样本投影到该空间后,进行卷积操作
    • 采用超参控制每次选择的相邻节点数量,对变化后的样本做 filter 和求加,再将输出结果进行拉普拉斯的逆变换,并输出非线性化后的结果
  • spatial空间方法(计算机方法)
    • 从CNN向GCN卷积的k迁移问题在于,需要确定一个固定的邻域,后续卷积的定序、参数共享步骤都可以在确定邻域后解决
  • 谱方法可以被定义为空间方法的一个子集
    • 相较于空间方法在原始空间定义聚合函数,谱方法在规范后实质上是对变换到新的空间中的样本进行卷积
    • 因此谱方法可以被看作是变换空间后的空间方法,其从属于空间方法这一类别。而谱方法将显式地写出了空间变换,空间方法直接将 kernel matrix 定义出来,未写明变换的空间

八、因果分析

d分离问题判断:
在这里插入图片描述

在这里插入图片描述

考试回忆

  • 选择题:
    • 人工智能三大分支
    • 图灵测试
    • 强化学习状态图选择蒙特卡洛方法
    • 囚徒困境帕累托最优
    • minmax和maxmin策略
    • 图神经网络
    • 最优匹配问题
    • 因果模型图判断d分离
  • 简答题:
    • 描述蚁群优化算法 or 粒子群优化算法(万年不变)
  • 应用题:
    • 格子游戏(万年不变)
      • 贝尔曼方程 + 策略提升 + 求解最优策略

在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值