- 博客(2)
- 收藏
- 关注
原创 浅谈: 强化学习从人类反馈(RLHF)[AI生成]
强化学习(RL)是一种机器学习的方法,它让智能体(agent)通过与环境交互,从自己的行为中学习最优的策略。RL的目标是让智能体最大化累积的奖励(reward),而奖励通常是由环境给出的,反映了智能体的行为是否符合预期的目标。例如,在自动驾驶中,环境可能只在发生事故时给出负向的奖励,而忽略了其他方面的评价标准,如舒适度、安全性、效率等。强化学习从人类反馈(RLHF)是一种结合了强化学习和人机交互(HCI)的方法,它让智能体通过接收来自人类用户或专家的反馈来调整自己的行为。
2023-03-22 12:52:06
1153
原创 浅谈ChatGPT [AI生成]
ChatGPT是一种基于GPT-3.5的大型语言模型聊天机器人,由OpenAI开发。它具有惊人的对话交互能力,能够提供看起来非常人性化的回答。大型语言模型的任务是预测一系列单词中的下一个单词。
2023-03-22 12:48:48
264
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人