m057737058chlmyr-CSDN博客

原创 Next-Best-View(下一个最佳视角)

Agent进入地图，反复探测，尽可能多地获得环境信息，然后在已知的这些环境中选择下一个最佳视点，并规划出到该视点的无障碍路径（这次探测能够增加覆盖的范围）。重复上述过程，直到认为剩余遮挡物太小或传感器已无法探测

2022-05-10 16:27:25 1147

参考文献：[1]YAMAUCHI B. A frontier-based approach for autonomous exploration[C/OL]//Proceedings 1997 IEEE International Symposium on Computational Intelligence in Robotics and Automation CIRA’97. “Towards New Computational Principles for Robotics and Automa...

2022-05-04 17:06:24 757

原创部分可观测马尔可夫过程POMDP

找不到太多学习资料，根据现有资料的学习内容比较凌乱，有待进一步优化

2022-03-11 14:54:30 3973 6

原创蒙特卡罗树搜索的笔记

一、树搜索树搜索算法：1.盲目搜索→深度优先、广度优先；2.贪心算法→A*；3.博弈树算法→极小化极大算法（minmax）假设对手每一步都是最优的策略，即对手永远能让我方收益最小化，这样得到的策略是最大化我方收益的策略二、蒙特卡洛树搜索四个步骤1.选择：从根节点开始，递归应用选择策略（不一定是最优的策略,常用：UCB）得到最需要被拓展的节点（这个节点不能是叶子节点也不能是走过了的节点）2.拓展：上一步选定的节点生成一个或者多个子节点3.模拟：即蒙特卡罗过程，从拓展的子节点开始采样模拟可能

2022-03-08 20:54:19 778

原创马尔可夫决策过程的一些个人理解

（！一些个人理解！）马尔可夫决策过程：Agent与环境交互，通过优化Agent的行为策略，使Agent在环境中实现需要的状态策略：Agent根据环境选择行为，这一系列Agent选择的行为的组合及这样选择的概率就是达成目标的策略（π是s的函数）回报函数：即时的，衡量Agent某一步动作的好坏（Agent的目标是累积起来的回报函数最大）值函数：长期的，该状态下累积回报的平均值（平均值：每一路径都是一个马尔可夫链，马尔可夫链的Gt即累计回报，从该状态发出的马尔可夫链的累积回报的期望就是该状...

2022-03-05 20:19:38 674 2

原创关于马尔可夫过程的一些学习笔记

①马尔可夫性质：已知“现在”的情况下，“未来”与“过去”彼此独立（N+1仅与N有关，与N以前的所有都无关）②马尔可夫过程：具有马尔可夫性质的随机过程③马尔可夫链：马尔可夫过程的原始模型，其任意时刻的状态是有限个可能状态之一，某时刻状态一旦确定后续状态与此前状态无关。④隐马尔可夫过程：双重随机过程，状态和状态间随机，状态和输出间亦随机，输出仅与当前状态有关⑤马尔可夫决策过程：考虑动作，系统下一时刻的状态与当前时刻的状态和当前时刻采取的动作有关⑥部分可观察马尔可夫决策过程：环境状态部分可知，

2022-03-04 17:10:58 522

m0_57737058的博客

原创信息论——信息熵

原创海洋机器人的覆盖路径规划算法

原创 Next-Best-View(下一个最佳视角)

原创一种基于前沿的自主探索方法

原创部分可观测马尔可夫过程POMDP

原创蒙特卡罗树搜索的笔记

原创马尔可夫决策过程的一些个人理解

原创关于马尔可夫过程的一些学习笔记

空空如也

空空如也