自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 收藏
  • 关注

原创 【论文笔记】Training language models to follow instructions with human feedback B部分

InstructGPT 技术报告 B部分 (第二次修改,对重要结论进行了标注)

2024-05-05 22:32:24 1063 1

原创 【论文笔记】Training language models to follow instructions with human feedback A部分

InstructGPT 技术报告 A部分

2024-04-30 16:37:00 1384

原创 【论文笔记】Language Models are Few-Shot Learners B部分

GPT-3 技术报告(模型对社会的影响部分)。

2024-04-28 21:19:43 1389

原创 【论文笔记】RobotGPT: Robot Manipulation Learning From ChatGPT

研究背景:人类指令→→ChatGPT→→机器人执行代码→→机器人执行关键科学/技术问题用 ChatGPT 生成的执行代码不能保证系统的稳定性和安全性。大规模语言模型的本质是基于已知的 token 预测下一个/下几个 token。目前把语言模型建模成了概率分布pst1∣st⋯s0pst1​∣st​⋯s0​,并用海量数据集和超大规模神经网络拟合这个概率分布。概率分布天生蕴含不确定性。

2024-03-21 14:52:58 1330 2

原创 【论文笔记】Language Models are Few-Shot Learners A部分

GPT-3 技术报告。

2024-03-06 15:16:25 1437

原创 【论文笔记】Language Models are Unsupervised Multitask Learners

GPT-2 论文笔记。

2024-03-05 10:36:50 1592

原创 【论文笔记】Improving Language Understanding by Generative Pre-Training

GPT-1 文章:Improving Language Understanding by Generative Pre-Training

2024-03-01 22:12:45 1249 1

原创 【论文笔记】Attention Is All You Need

每个搞人工智能的硕博生必看的论文。

2024-02-28 14:25:10 617

原创 深度神经网络中的计算和内存带宽

深度神经网络计算中的内存带宽(memory bandwidth)和数据重用(data reuse)可以通过一些简单的模拟计算来估计。深度神经网络计算需要使用权重数据和输入数据。权重数据是神经网络参数,输入数据(线性映射、非线性激活函数)是要从一个神经网络层传输到下一个神经网络层的数据。如果计算重用数据,则需要较少的内存带宽。发送更多输入,以由相同的权重进行处理;发送更多权重以处理相同的输入;如果没有输入或权重数据重用,则带宽对于给定应用程序处于最大值。

2024-02-25 20:58:38 1358

原创 【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU 是一种自动机器翻译评估方法。该方法快速、廉价且与语言无关,与人工评估高度相关,并且每次运行的边际成本很小。

2024-02-23 20:29:30 1542

原创 强化学习框环境 - robogym - 学习 - 4

robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景。

2023-10-07 14:44:14 268

原创 强化学习环境 - robogym - 学习 - 3

robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景

2023-10-06 14:55:43 335

原创 强化学习环境 - robogym - 学习 - 2

Robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景

2023-10-04 22:05:12 848 2

原创 强化学习环境 - robogym - 学习 - 1

Robogym 基于 mujoco 搭建,构建了一个仿真机械臂桌面物体操作(pick-place、stack、rearrange)场景。

2023-10-04 22:01:10 715

原创 【论文笔记】Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models

本文提出了一种方法,使用LLMs将文本操作原语任务转化为可执行的动作。设计一个形式化任务框架(Task Framework Formalism)的类编程提示,这是一种面向对象的规范。该提示将原始任务的文本作为输入,并输出任务框架中的一组位置/力矩设定点。

2023-08-17 14:18:27 166 1

原创 【论文笔记】Task and Motion Planning with Large Language Models for Object Rearrangement

多目标重排是服务机器人的关键技能,这个过程中通常需要常识推理。实现常识性的排列需要关于物体的知识,这对机器人来说很难转移。大型语言模型(LLMs)是获取这种知识的一种潜在来源。用LLMs实现机器人多目标重排。关键问题:它们并不能有关世界的、可能的、物理的排列信息。作者提出了一个模型,LLM-GROP,使人类能够从到重新排列。

2023-08-17 08:53:46 863

原创 【论文笔记】Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

本文研究了如何将用自然语言(例如“做早餐”)表达的高级任务以基于一组可操作步骤(例如“打开冰箱”、“准备食物”、“烹饪”等)进行实现的可能性。之前的方法主要集中在从明确的逐步操作示例中学习如何行动。作者认为,预训练的语言模型足够大并且得到适当的提示,它们可以有效地将高级任务分解为中级计划,而无需进一步的训练。但是LLMs生成的计划通常无法精确映射到可接受的动作。

2023-08-16 11:37:29 525 1

原创 请你帮我找一个代码,可以实现相机手眼标定,具体:只需要输入机械臂末端位姿和若干张不同位姿下标定板的照片,输出在相机坐标系下机械臂末端的位置和姿态。

您可以根据这些资源学习如何实现相机手眼标定,并根据您的需求进行相应的调整。希望这些信息对您有所帮助!也提供了一些关于3D手眼标定的实用指南,包括移动机器人到特定姿态和获取标定结果等步骤[3]。提供了一些关于机器人-世界和手眼标定的代码和数据集,您可以查看相关材料了解更多[4]。,它详细介绍了如何安装相机、设置标定板和获取机器人姿态等步骤[2]。的项目,它提供了实际代码和标定机器人的说明。中找到源代码和使用方法[1]。EnsensoSDK的。

2023-08-02 19:45:09 321

原创 强化学习SAC算法对数概率公式推导

为什么SAC计算对数概率会有很“奇怪”的一项?

2023-07-25 22:47:27 581 2

原创 【论文笔记】Auto TAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers

为了实现有效的人机交互,机器人需要理解、规划和执行由自然语言描述的复杂、长期任务。最近LLMs的显著进展表明,有望将自然语言转化为机器人执行复杂任务的动作序列。现有的方法要么直接将自然语言翻译为机器人轨迹,要么通过将自然语言分解为任务子目标来分解推理过程,然后依靠运动规划器执行每个子目标。当涉及到复杂的环境和时间限制时,使用传统的任务和运动规划(TAMP)算法联合执行规划好的任务和运动规划的推理,使得这种子任务分解变得不可行。

2023-07-16 12:50:12 777

原创 【论文笔记】Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-b

人们对将预训练大型语言模型(llm)应用于规划问题越来越感兴趣。直接使用 LLM 作为规划器的方法目前是不切实际的,包括计划的有限正确性,强烈依赖于模拟器与实际环境的交互得到的反馈,以及利用低效率的人类反馈。在这项工作中,作者引入了一种新的替代范例,它使用规划领域定义语言(PDDL)构建显式的世界模型(领域模型),然后使用可靠的领域无关规划器进行规划。

2023-07-14 14:08:36 1009

原创 【论文笔记】(2023-10-15更新) Guided Skill Learning and Abstraction for Long-Horizon Manipulation

为了协助日常人类活动,机器人必须解决复杂的长期任务并推广到新环境。最近的深度强化学习方法在完全自主学习方面表现出了一定的优势,但在大型环境中很难达到长期目标。另一方面,任务和动作规划(TAMP)方法在解决和推广长期任务方面表现出色,这要归功于它们强大的状态和动作抽象化。它们需要假设预定义好的的技能集。作者将强化学习和 TAMP 这两种范式相结合,提出一个集成任务规划和技能学习的框架 LEAGUE。

2023-07-12 15:26:18 2326 2

原创 【论文笔记】Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning

使用不同离线数据集的强化学习(RL)可以利用多个任务之间的关系和跨这些任务学习到的共同技能,从而使我们能够以数据驱动的方式有效地处理现实世界中的复杂问题。在离线强化学习中,只使用离线数据,与环境的联机交互受到限制,但很难实现多个任务的最优策略,特别是在任务的数据质量不同的情况下。本文采用基于技能的多任务强化学习技术,加上由不同品质的行为策略产生的异质数据集。为了有效地学习这些数据集之间可共享的知识,我们采用了一种任务分解方法,通过这种方法,共享技能被共同学习。

2023-07-11 11:00:22 491 1

原创 【论文笔记】Skill-based Meta Reinforcement Learning

虽然深度强化学习方法在机器人学习中表现出色,但它们的样本效率使得在真实机器人系统中学习复杂、长期的行为变得不可行。为了缓解这个问题,元强化学习方法旨在通过学习如何学习,使得在新任务上能够快速学习。目前元强化学习限制在短期行为、密集奖励函数的任务上。为了使学习长期行为变得可能,最近的研究探索了利用以离线数据集形式存在的先验知识,这些数据集没有奖励信息或任务注释。制作这样的离线数据集需要大量的实践交互。

2023-07-05 18:40:07 1327

原创 【论文笔记】Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement Learning

目前成功的项目都是在单臂机器人上实现的,但是问题的解决范围被限制在了拾取(pick-place)插入(insertion)和物体重排列(objects re-arrangement)。相比之下,双臂和多臂机器人平台可以解决丰富多样的问题,例如洗衣服和烹饪技能的执行。开发多臂机器人控制器被一些独特的挑战复杂化了,例如:双臂行为的协同、双臂之间的碰撞避免。除了设计控制算法之外,一个关键挑战是如何为双手机器人设计公平的评估任务,这些任务强调双手协调,同时消除高级感知等正交复杂因素。

2023-06-16 21:18:03 419 1

原创 【论文笔记】Learning Latent Dynamics for Planning from Pixels

论文及开源代码解读

2023-05-16 16:42:07 1061

原创 Ubuntu系统录屏webm格式mp4格式方法

【方法】Ubuntu系统录屏webm格式mp4格式方法。

2023-05-05 13:49:02 1988 1

原创 【论文笔记】Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learn

熟练的机器人操作得益于非可抓动作(如“推”动作)和推可以重新排列杂乱的物体,为手臂和手指(夹持器)腾出空间;同样,抓握可以帮助移动物体,使推动动作更加精确,不受碰撞。研究实验证明了通过无模型的深度强化学习,可以从零开始发现和学习这些推抓协同效应。

2023-04-09 13:30:30 1096 1

原创 【论文笔记】Efficient Learning of Goal-Oriented Push-Grasping Synergy in Clutter

机器人在杂乱中抓取预先分配的目标对象,需要一些预抓动作,如推动,来实现稳定的抓取。研究问题机器人只有在成功抓住目标对象时,才能从环境中获得正向的奖励(存在稀疏奖励的特性)。机器人联合推握和抓握延长了动作序列,加剧了奖励延迟的问题。这样的任务中,样本效率低下仍然是这项任务中的一个主要挑战。本文提出了一种具有高样本效率的目标条件存在下的分层强化学习范式,来学习在杂乱无章物体中,抓取特定对象的推抓取策略。

2023-04-07 16:54:28 1042 4

原创 【论文笔记】QDP: Learning to Sequentially Optimize Quasi-Static and Dynamic Manipulation Primitives

预定义的操作原语被广泛用于布料操作。然而,布料的特性,如其硬度或密度,会高度影响这些操作原语的性能。现有的解决方案已经解决了选择和放置位置(pick and place location)的参数化问题。准静态(Quasi-Static)和动态操作原语的速度或轨迹等因素的影响却被忽略了。研究问题在机器人衣物操作中,如何选择合适的速度和轨迹,以实现一类的衣物布料操作。

2023-04-03 16:30:19 340 1

原创 【论文笔记】Throwing Objects into A Moving Basket While Avoiding Obstacles

解决物体投掷问题,使机器人能够在有障碍物阻碍路径时精确地将物体扔到移动的篮子中。

2023-03-23 21:02:57 736 1

原创 元强化学习 PEARL 项目解读

元强化学习 PEARL 项目解读

2023-03-22 23:08:23 1447

原创 Dynamic Movement Primitives (DMP) 学习

整理于沙漏大佬的知乎博文,适合入门了解~~

2023-03-06 11:30:45 1346

原创 Stable-Baselines 3 部分源代码解读 1 base_class.py

阅读PPO相关的源码,了解一下标准库是如何建立PPO算法以及各种tricks的,以便于自己的复现。在Pycharm里面一直跳转,可以看到PPO类是最终继承于基类,也就是这个py文件的内容。所以阅读源码就先从这里开始。: )

2023-02-22 15:15:37 1913

原创 Stable-Baselines 3 部分源代码解读 2 on_policy_algorithm.py

阅读PPO相关的源码,了解一下标准库是如何建立PPO算法以及各种tricks的,以便于自己的复现。在Pycharm里面一直跳转,可以看到PPO类是最终继承于基类,也就是这个py文件的内容。所以阅读源码就先从这里开始。: )

2023-02-22 15:14:01 896

原创 Stable-Baselines 3 部分源代码解读 3 ppo.py

阅读PPO相关的源码,了解一下标准库是如何建立PPO算法以及各种tricks的,以便于自己的复现。在Pycharm里面一直跳转,可以看到PPO类是最终继承于基类,也就是这个py文件的内容。所以阅读源码就先从这里开始。: )

2023-02-22 15:13:07 3237 4

原创 【论文笔记】 元强化学习综述解读 (arXiv: 2301.08028)

本文详细描述了元强化学习问题的设置及其主要算法的变种。本文的分类方式:任务分布的表现形式、对每个任务能够学习到的内容。最后,作者为使元强化学习成为深度强化实践者的实用工具的发展方向上,提出了若干问题。

2023-02-04 18:42:00 4526 1

原创 MAML-RL Pytorch 代码解读 (17) -- maml_rl/metalearner.py

MAML RL 源代码解读 17

2023-01-27 21:58:19 448

原创 MAML-RL Pytorch 代码解读 (16) -- maml_rl/metalearner.py

MAML RL 源代码解读 16

2023-01-27 21:57:41 657

原创 MAML-RL Pytorch 代码解读 (15) -- maml_rl/episode.py

MAML RL 源代码解读 15

2023-01-27 21:56:32 511

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除