人工智能
文章平均质量分 91
艽野尘梦better
我们见到的太阳是8分钟之前的太阳,见到的月亮是1.3秒之前的月亮,即使你在我一米之外,我见到的也是3纳秒以前的你。
展开
-
强化学习中SARSA(State-Action-Reward-State-Action)和Q-learning的区别
SARSA(State-Action-Reward-State-Action)和Q-learning是两种经典的强化学习算法,它们都用于学习最优策略以使智能体在一个环境中获得最大的累积奖励。总的来说,SARSA和Q-learning都是强化学习算法的经典代表,它们在更新方式和适用情况上有所不同,选择哪种算法取决于具体的问题和应用场景。SARSA 和 Q-learning 在更新策略时的一个重要区别在于它们是同策略(on-policy)和异策略(off-policy)学习算法。原创 2024-03-15 15:09:43 · 915 阅读 · 0 评论 -
强化学习入门:基本思想和经典算法(转载)
强化学习(Reinforcement learning,RL)讨论的问题是一个智能体 (agent)怎么在一个复杂不确定的环境 (environment)里面去极大化它能获得的奖励。通过感知所处环境的状态 (state)对动作 (action)的反应 (reward), 来指导更好的动作,从而获得最大的收益 (return),这被称为在交互中学习,这样的学习方法就被称作强化学习。强化学习在强化学习过程中,智能体跟环境一直在交互。智能体在环境里面获取到状态,智能体会利用这个状态输出一个动作,一个决策。转载 2023-05-12 22:31:15 · 419 阅读 · 0 评论 -
HuggingGPT 火了:一个 ChatGPT 控制所有 AI 模型,自动帮人完成 AI 任务,网友:留口饭吃吧..._QbitAl 的博客 - CSDN 博客
最强组合:HuggingFace+ChatGPT ——HuggingGPT,它来了!只要给定一个 AI 任务,例如 “下面这张图片里有什么动物,每种有几只”。它就能帮你自动分析需要哪些 AI 模型,然后直接去调用 HuggingFace 上的相应模型,来帮你执行并完成。转载 2023-04-05 12:28:48 · 119 阅读 · 0 评论