机器学习
文章平均质量分 67
唐豆豆*
这个作者很懒,什么都没留下…
展开
-
笔记:蒙特卡洛方法——通过随机样本估算真实值
参考教材:深度强化学习 (王树森、黎彧君、张志华著)原创 2024-01-07 23:19:45 · 376 阅读 · 0 评论 -
机器学习笔记三——强化学习的V值计算
把智能体放入环境的任意状态——从这个状态开始按照策略进行动作选择,并进入新状态——重复步骤2,直至进入最终状态——从最终状态往前回溯,计算每个状态的G值——重复1~4状态多次,平均每个状态的G值,这就是所需的V值1.具体G值计算如下:按照策略往后走,过程中不进行计算,只记录每一步的奖惩r从终点往前走,到某一状态获得的奖励总和就是G值。此时G=r+gamma*G_1,即这一步的G值等于奖惩r加上上一步的G值(G_1)乘以一定的折扣率(小于1)。原创 2023-12-31 16:47:42 · 556 阅读 · 0 评论 -
机器学习笔记二——强化学习
强化学习就是让智能体可以独立自主的完成某个任务。独立自主指的就是不需要人去指挥。比如扫地机器人,打开开关就会自动去清理。自动驾驶的汽车,在定好目的地后,可以自动安全达到目的地。强化学习的过程Agent(智能体)——产生Action(行动)——Environment(环境)——产生new state(状态)以及reward(奖惩)——返给Agent强化学习的本质:学习的是一种策略Policy,如何去选择行为,如何确定下一步的动作。原创 2023-12-31 09:50:10 · 912 阅读 · 1 评论 -
机器学习笔记一
计算机程序可以针对某个任务T和某个性能指标P,从经验E中学习。在任务T上被性能指标P衡量的性能,会随着经验E的增加而提高。机器学习本质就是最优化的过程例如:任务T——编写计算机程序识别菊花与 玫瑰花经验E——一大堆菊花和玫瑰花的图片,(训练样本)性能指标P——不同算法有不同,这里可以选择识别率随着训练样本逐渐加大,识别率越来越大任务T——编写程序让机器人冲咖啡经验E——机器人多次尝试的行为和这些行为产生的结果性能指标P——在规定时间内成功充好咖啡的次数。原创 2023-12-27 17:20:36 · 1033 阅读 · 0 评论