Ctrl+Alt+L-CSDN博客

原创【论文笔记】Training language models to follow instructions with human feedback B部分

InstructGPT 技术报告 B部分 (第二次修改，对重要结论进行了标注)

2024-05-05 22:32:24 1271 1

原创【论文笔记】Training language models to follow instructions with human feedback A部分

InstructGPT 技术报告 A部分

2024-04-30 16:37:00 1646 1

原创【论文笔记】Language Models are Few-Shot Learners B部分

GPT-3 技术报告（模型对社会的影响部分）。

2024-04-28 21:19:43 1548 1

原创【论文笔记】RobotGPT: Robot Manipulation Learning From ChatGPT

研究背景：人类指令→→ChatGPT→→机器人执行代码→→机器人执行关键科学/技术问题用 ChatGPT 生成的执行代码不能保证系统的稳定性和安全性。大规模语言模型的本质是基于已知的 token 预测下一个/下几个 token。目前把语言模型建模成了概率分布pst1∣st⋯s0pst1∣st⋯s0，并用海量数据集和超大规模神经网络拟合这个概率分布。概率分布天生蕴含不确定性。

2024-03-21 14:52:58 1933 3

原创【论文笔记】Language Models are Few-Shot Learners A部分

GPT-3 技术报告。

2024-03-06 15:16:25 1814 1

原创【论文笔记】Language Models are Unsupervised Multitask Learners

GPT-2 论文笔记。

2024-03-05 10:36:50 2416 1

原创【论文笔记】Improving Language Understanding by Generative Pre-Training

GPT-1 文章：Improving Language Understanding by Generative Pre-Training

2024-03-01 22:12:45 1443 1

原创【论文笔记】Attention Is All You Need

每个搞人工智能的硕博生必看的论文。

2024-02-28 14:25:10 784 1

原创深度神经网络中的计算和内存带宽

深度神经网络计算中的内存带宽（memory bandwidth）和数据重用（data reuse）可以通过一些简单的模拟计算来估计。深度神经网络计算需要使用权重数据和输入数据。权重数据是神经网络参数，输入数据（线性映射、非线性激活函数）是要从一个神经网络层传输到下一个神经网络层的数据。如果计算重用数据，则需要较少的内存带宽。发送更多输入，以由相同的权重进行处理；发送更多权重以处理相同的输入；如果没有输入或权重数据重用，则带宽对于给定应用程序处于最大值。

2024-02-25 20:58:38 1632 1

原创【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU 是一种自动机器翻译评估方法。该方法快速、廉价且与语言无关，与人工评估高度相关，并且每次运行的边际成本很小。

2024-02-23 20:29:30 2059 1

原创强化学习框环境 - robogym - 学习 - 4

robogym 基于 mujoco 搭建，构建了一个仿真机械臂桌面物体操作（pick-place、stack、rearrange）场景。

2023-10-07 14:44:14 379

原创强化学习环境 - robogym - 学习 - 3

robogym 基于 mujoco 搭建，构建了一个仿真机械臂桌面物体操作（pick-place、stack、rearrange）场景

2023-10-06 14:55:43 538

原创强化学习环境 - robogym - 学习 - 2

Robogym 基于 mujoco 搭建，构建了一个仿真机械臂桌面物体操作（pick-place、stack、rearrange）场景

2023-10-04 22:05:12 1014 2

原创强化学习环境 - robogym - 学习 - 1

Robogym 基于 mujoco 搭建，构建了一个仿真机械臂桌面物体操作（pick-place、stack、rearrange）场景。

2023-10-04 22:01:10 790

原创【论文笔记】Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models

本文提出了一种方法，使用LLMs将文本操作原语任务转化为可执行的动作。设计一个形式化任务框架（Task Framework Formalism）的类编程提示，这是一种面向对象的规范。该提示将原始任务的文本作为输入，并输出任务框架中的一组位置/力矩设定点。

2023-08-17 14:18:27 234 1

原创【论文笔记】Task and Motion Planning with Large Language Models for Object Rearrangement

多目标重排是服务机器人的关键技能，这个过程中通常需要常识推理。实现常识性的排列需要关于物体的知识，这对机器人来说很难转移。大型语言模型（LLMs）是获取这种知识的一种潜在来源。用LLMs实现机器人多目标重排。关键问题：它们并不能有关世界的、可能的、物理的排列信息。作者提出了一个模型，LLM-GROP，使人类能够从到重新排列。

2023-08-17 08:53:46 1247

原创【论文笔记】Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

本文研究了如何将用自然语言（例如“做早餐”）表达的高级任务以基于一组可操作步骤（例如“打开冰箱”、“准备食物”、“烹饪”等）进行实现的可能性。之前的方法主要集中在从明确的逐步操作示例中学习如何行动。作者认为，预训练的语言模型足够大并且得到适当的提示，它们可以有效地将高级任务分解为中级计划，而无需进一步的训练。但是LLMs生成的计划通常无法精确映射到可接受的动作。

2023-08-16 11:37:29 984 2

原创请你帮我找一个代码，可以实现相机手眼标定，具体：只需要输入机械臂末端位姿和若干张不同位姿下标定板的照片，输出在相机坐标系下机械臂末端的位置和姿态。

您可以根据这些资源学习如何实现相机手眼标定，并根据您的需求进行相应的调整。希望这些信息对您有所帮助！也提供了一些关于3D手眼标定的实用指南，包括移动机器人到特定姿态和获取标定结果等步骤[3]。提供了一些关于机器人-世界和手眼标定的代码和数据集，您可以查看相关材料了解更多[4]。，它详细介绍了如何安装相机、设置标定板和获取机器人姿态等步骤[2]。的项目，它提供了实际代码和标定机器人的说明。中找到源代码和使用方法[1]。EnsensoSDK的。

2023-08-02 19:45:09 461

原创强化学习SAC算法对数概率公式推导

为什么SAC计算对数概率会有很“奇怪”的一项？

2023-07-25 22:47:27 766 2

原创【论文笔记】Auto TAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers

为了实现有效的人机交互，机器人需要理解、规划和执行由自然语言描述的复杂、长期任务。最近LLMs的显著进展表明，有望将自然语言转化为机器人执行复杂任务的动作序列。现有的方法要么直接将自然语言翻译为机器人轨迹，要么通过将自然语言分解为任务子目标来分解推理过程，然后依靠运动规划器执行每个子目标。当涉及到复杂的环境和时间限制时，使用传统的任务和运动规划（TAMP）算法联合执行规划好的任务和运动规划的推理，使得这种子任务分解变得不可行。

2023-07-16 12:50:12 1561

原创【论文笔记】Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-b

人们对将预训练大型语言模型（llm）应用于规划问题越来越感兴趣。直接使用 LLM 作为规划器的方法目前是不切实际的，包括计划的有限正确性，强烈依赖于模拟器与实际环境的交互得到的反馈，以及利用低效率的人类反馈。在这项工作中，作者引入了一种新的替代范例，它使用规划领域定义语言（PDDL）构建显式的世界模型（领域模型），然后使用可靠的领域无关规划器进行规划。

2023-07-14 14:08:36 1447

原创【论文笔记】(2023-10-15更新) Guided Skill Learning and Abstraction for Long-Horizon Manipulation

为了协助日常人类活动，机器人必须解决复杂的长期任务并推广到新环境。最近的深度强化学习方法在完全自主学习方面表现出了一定的优势，但在大型环境中很难达到长期目标。另一方面，任务和动作规划（TAMP）方法在解决和推广长期任务方面表现出色，这要归功于它们强大的状态和动作抽象化。它们需要假设预定义好的的技能集。作者将强化学习和 TAMP 这两种范式相结合，提出一个集成任务规划和技能学习的框架 LEAGUE。

2023-07-12 15:26:18 2599 2

原创【论文笔记】Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning

使用不同离线数据集的强化学习（RL）可以利用多个任务之间的关系和跨这些任务学习到的共同技能，从而使我们能够以数据驱动的方式有效地处理现实世界中的复杂问题。在离线强化学习中，只使用离线数据，与环境的联机交互受到限制，但很难实现多个任务的最优策略，特别是在任务的数据质量不同的情况下。本文采用基于技能的多任务强化学习技术，加上由不同品质的行为策略产生的异质数据集。为了有效地学习这些数据集之间可共享的知识，我们采用了一种任务分解方法，通过这种方法，共享技能被共同学习。

2023-07-11 11:00:22 776 1

原创【论文笔记】Skill-based Meta Reinforcement Learning

虽然深度强化学习方法在机器人学习中表现出色，但它们的样本效率使得在真实机器人系统中学习复杂、长期的行为变得不可行。为了缓解这个问题，元强化学习方法旨在通过学习如何学习，使得在新任务上能够快速学习。目前元强化学习限制在短期行为、密集奖励函数的任务上。为了使学习长期行为变得可能，最近的研究探索了利用以离线数据集形式存在的先验知识，这些数据集没有奖励信息或任务注释。制作这样的离线数据集需要大量的实践交互。

2023-07-05 18:40:07 1487

原创【论文笔记】Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement Learning

目前成功的项目都是在单臂机器人上实现的，但是问题的解决范围被限制在了拾取（pick-place）插入（insertion）和物体重排列（objects re-arrangement）。相比之下，双臂和多臂机器人平台可以解决丰富多样的问题，例如洗衣服和烹饪技能的执行。开发多臂机器人控制器被一些独特的挑战复杂化了，例如：双臂行为的协同、双臂之间的碰撞避免。除了设计控制算法之外，一个关键挑战是如何为双手机器人设计公平的评估任务，这些任务强调双手协调，同时消除高级感知等正交复杂因素。

2023-06-16 21:18:03 615 1

原创【论文笔记】Learning Latent Dynamics for Planning from Pixels

论文及开源代码解读

2023-05-16 16:42:07 1596 1

原创 Ubuntu系统录屏webm格式mp4格式方法

【方法】Ubuntu系统录屏webm格式mp4格式方法。

2023-05-05 13:49:02 3062 2

原创【论文笔记】Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learn

熟练的机器人操作得益于非可抓动作（如“推”动作）和推可以重新排列杂乱的物体，为手臂和手指（夹持器）腾出空间；同样，抓握可以帮助移动物体，使推动动作更加精确，不受碰撞。研究实验证明了通过无模型的深度强化学习，可以从零开始发现和学习这些推抓协同效应。

2023-04-09 13:30:30 1544 1

原创【论文笔记】Efficient Learning of Goal-Oriented Push-Grasping Synergy in Clutter

机器人在杂乱中抓取预先分配的目标对象，需要一些预抓动作，如推动，来实现稳定的抓取。研究问题机器人只有在成功抓住目标对象时，才能从环境中获得正向的奖励（存在稀疏奖励的特性）。机器人联合推握和抓握延长了动作序列，加剧了奖励延迟的问题。这样的任务中，样本效率低下仍然是这项任务中的一个主要挑战。本文提出了一种具有高样本效率的目标条件存在下的分层强化学习范式，来学习在杂乱无章物体中，抓取特定对象的推抓取策略。

2023-04-07 16:54:28 1288 5

原创【论文笔记】QDP: Learning to Sequentially Optimize Quasi-Static and Dynamic Manipulation Primitives

预定义的操作原语被广泛用于布料操作。然而，布料的特性，如其硬度或密度，会高度影响这些操作原语的性能。现有的解决方案已经解决了选择和放置位置（pick and place location）的参数化问题。准静态（Quasi-Static）和动态操作原语的速度或轨迹等因素的影响却被忽略了。研究问题在机器人衣物操作中，如何选择合适的速度和轨迹，以实现一类的衣物布料操作。

2023-04-03 16:30:19 455 1