人工智能:一种现代方法——复习笔记4

本文探讨了在连续空间中应用局部搜索算法解决建机场等优化问题的方法,包括爬山法、模拟退火、梯度优化和约束优化。还涉及如何处理连续问题的离散化,以及在不确定性和无传感器环境下的搜索策略,如信念状态空间搜索和扩展转移模型的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

连续空间中的局部搜索

建机场的优化问题

使用已有的局部搜索算法

首选爬山法和模拟退火能够处理连续状态和动作空间。连续空间的分支因子是无限的,最陡爬山、随机爬山、局部束搜索要产生无限个后继,不可行。
遗传算法对状态编码,假设n个01位,最多表示2n个状态,无法表示连续空间的无限多个状态。

将连续问题离散化

处理连续状态空间的一种方法是离散化(discretize)。例如,我们可以将(xi, yi)的位置限制在矩形网格上间距为\delta的固定点,而不是允许它的位置可以为连续二维空间中的任意点。

首选爬山法和模拟退火法不用离散即可使用,随机生成长度为\delta的向量

使用梯度:求解\triangledown f= 0

### 关于电子科技大学人工智能课程期末复习资料 #### MDP与强化学习中的时间差分学习 在讨论到MDP(马尔可夫决策过程)和强化学习时,提到的一个重要概念是时间差分学习。这种学习方法通过估计当前状态的价值并利用下一个状态的实际奖励来调整价值函数,从而逐步优化策略[^2]。 ```python def td_learning(state, action, reward, next_state, value_function, alpha=0.1, gamma=0.9): """ 实现简单的时间差分学习更新规则 参数: state (int): 当前状态索引. action (int): 执行的动作. reward (float): 获得的即时奖励. next_state (int): 下一时刻的状态索引. value_function (dict): 存储各状态下V(s)值字典. alpha (float): 步长参数,默认为0.1. gamma (float): 折扣因子,默认为0.9. 返回: 更新后的value_function. """ # 计算TD目标 target = reward + gamma * value_function.get(next_state, 0) # 使用TD误差更新当前状态下的价值评估 old_value = value_function.get(state, 0) new_value = old_value + alpha * (target - old_value) value_function[state] = new_value return value_function ``` #### 概率论与贝叶斯网络的应用场景 对于概率论部分特别是贝叶斯网络的学习重点在于理解不同类型的依赖关系如何影响事件之间的关联度。具体来说,在处理复杂系统建模时只需记住间接因果、已知共同原因以及未知共同结果这三种情况即可推导其余情形下变量间的相互作用方式[^3]。 #### 复习范围内的实践案例分析 除了理论知识外还涉及到了一些具体的编程练习项目,比如基于A*算法解决八数码难题;运用ID3构建决策树模型进行分类预测任务;采用Q-Learning跟SARSA两种不同的增强型学习框架完成环境探索模拟——即著名的“悬崖行走”问题求解方案设计[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值