国科大《高级人工智能》沈老师部分——行为主义笔记

最新推荐文章于 2023-11-07 15:22:44 发布

enchantedovo

最新推荐文章于 2023-11-07 15:22:44 发布

阅读量1.8k

点赞数 4

分类专栏：学校课程 # 高级人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_45617555/article/details/128648030

版权

学校课程同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

高级人工智能

3 篇文章 2 订阅

订阅专栏

国科大《高级人工智能》沈老师部分——行为主义笔记

沈华伟老师yyds，每次上他的课都有一种深入浅出的感觉，他能够把很难的东西讲的很简单，听完就是醍醐灌顶，理解起来特别清晰
今年考试题目这部分跟往年基本一样，沈老师画的重点才是真的重点

一、蚁群优化算法

思想：局部随机搜索+自增强
基本原理：用蚂蚁的行走路径表示待优化问题的可行解，整个蚂蚁群体的所有路径构成待优化问题的解空间。
蚂蚁依概率选择侯选位置移动，在经过的路径上留下信息素，信息素会随时间挥发，且信息素浓度大的路径更易被选取。最终，整个蚂蚁会在正反馈的作用下集中到最佳的路径上，此时对应的便是待优化问题的最优解。
算法过程：对m只蚂蚁随机放在n个城市，按照公式选择下一个城市的概率，此时公式正比于信息素浓度；
所有蚂蚁周游完后，更新信息素（与路的长度、挥发速度相关）；
适用范围：一种离散的解空间搜索方法，适用于图中找最优路径

二、粒子群算法

思想：随机优化
基本原理：
- 每个粒子对应于一个可行解，粒子通过位置和速度表示（速度：下一步移动的方向和距离，位置：求解问题的一个解）
- 粒子根据对其他个体信息+位置的评价，更新自己的速度与位置；重复直到粒子群找到问题的最优解
算法过程：
- 1. 初始化粒子群：随机生成粒子的位置和速度；当前粒子最优位置全局最优位置
- 1. 循环直到满足条件
  - ①计算每个粒子的适应度函数
  - ②更新每个粒子历史最好适应度+相应位置，更新当前全局最好适应度+位置
  - ③更新粒子的速度和位置：速度 = 原速度倾向 + 回到历史最优位置的倾向 + 粒子群全局最优位置的倾向
适用范围：求解连续解空间的优化问题

三、多臂赌博机

优化目标：摇固定次数的臂，获得期望累计奖励最大
探索与优化关系：利用（即时奖励最大化） + 探索（长期奖励最大化）
乐观初值法：为每个行为赋一个高的初始估值，初期每个行为都有较大机会被explore
UCB：选择潜力大的行为：依据估值的置信上界行为选择（当前估值高+不确定性高）

四、马尔科夫决策过程

马尔科夫决策过程：采取行动a转变为下一状态后，获得奖励
要素：状态、行为、模型
奖励假设：最终目标能通过最大化累计奖励实现
贝尔曼方程
- 格子世界问题（见后）

五、策略学习

动态规划：

策略估值：策略=》估值
策略提升：根据当前估值=>新策略
策略迭代：从初始策略开始，迭代进行策略估值和策略提升，最终得到最优策略
估值迭代：从初始状态估值开始，进行估值迭代，找到最优状态估，进而根据最优估值，贪心得到最优策略

动态规划、蒙特卡洛、时序差分联系和区别（图）

动态规划：一层全展开
蒙特卡洛：基于经验，一条线
暴力搜索：全部展开
时序差分：基于经验自举，只有一步的一条线

六、博弈

博弈要素：局中人（策略制定者）、策略（可供局中人选择的行动方案）、效用函数（最大化自己的效用）
零和博弈：效用函数玩家收益之和为0（剪刀石头布）
最佳应对：针对其他人当前策略，自己当前策略优于自己其他策略
纳什均衡：相对其他局中人的最佳应对（谁动谁吃亏）
社会最优：和最优
帕累托最优：至少一人最优
囚徒困境：
- 帕累托最优决策组合：（坦白，抗拒），（抗拒，坦白）和（抗拒，抗拒）
- 纳什均衡策略组合：（坦白，坦白）不是帕累托最优
- 社会最优策略组合：（抗拒，抗拒）
拍卖：
- 首价：同时提交密封报价，选出价最高以出价购买；最优报价低于估价；人越多，报价越接近估价
  - 纳什均衡：每个竞拍者的报价低于其对商品的估价
- 次价：同时提交密封报价，选出价最高以第二高出价购买
  - 纳什均衡：每个竞拍者会倾向于采用其对商品的估价进行报价
讨价对象：双方对商品估值之差
maxmin、minmax策略：
- Maxmin：最大化自己最坏情况下的利益
- minmax：最小化对手最好情况下的利益
- 零和博弈时收益对偶
匹配市场：对于z： 7 5 2 - 5 2 0 = 2 3 0，3最大，选b
议价权
- 稳定结局：未配对的边收益和>=1
- 纳什议价解：
  - 剩余价值：1-x-y
  - A收益=(1+x-y)/2
  - B收益=(1+y-x)/2
- 均衡结局：任意配对边都满足
- 备选项：不与当前配对的话，能得到的最大收益

七、GNN卷积网络

spectral谱方法（数学方法）
- 将图的拉普拉斯矩阵的特征向量作为基底，将样本投影到该空间后，进行卷积操作
- 采用超参控制每次选择的相邻节点数量，对变化后的样本做 filter 和求加，再将输出结果进行拉普拉斯的逆变换，并输出非线性化后的结果
spatial空间方法（计算机方法）
- 从CNN向GCN卷积的k迁移问题在于，需要确定一个固定的邻域，后续卷积的定序、参数共享步骤都可以在确定邻域后解决
谱方法可以被定义为空间方法的一个子集
- 相较于空间方法在原始空间定义聚合函数，谱方法在规范后实质上是对变换到新的空间中的样本进行卷积
- 因此谱方法可以被看作是变换空间后的空间方法，其从属于空间方法这一类别。而谱方法将显式地写出了空间变换，空间方法直接将 kernel matrix 定义出来，未写明变换的空间

八、因果分析

d分离问题判断：
在这里插入图片描述

在这里插入图片描述

考试回忆

选择题：
- 人工智能三大分支
- 图灵测试
- 强化学习状态图选择蒙特卡洛方法
- 囚徒困境帕累托最优
- minmax和maxmin策略
- 图神经网络
- 最优匹配问题
- 因果模型图判断d分离
简答题：
- 描述蚁群优化算法 or 粒子群优化算法（万年不变）
应用题：
- 格子游戏（万年不变）
  - 贝尔曼方程 + 策略提升 + 求解最优策略