- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 Benchmarking the Sim-to-Real Gap in Cloth Manipulation
提出了评估柔性物体模拟器的相关指标。可变形物体操作是家用和工业场景中至关重要的组成部分,但由于其无限自由度使得它们在世界中的状态表示相当困难,其次,复杂动力学使得动态操作变得相当困难、不可建模。部分工作在真实环境中进行数据采集和训练,但这种方法无法保证数据采集效率和训练过程的安全性,因此,借助仿真引擎构建操作框架有一定必要性。
2024-10-11 16:41:52
378
原创 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
是否可将大型预训练的视觉语言模型直接集成到低级机器人控制中,以提高泛化能力并实现突现语义推理?直接训练设计用于开放词汇视觉问答和视觉对话的视觉语言模型,以输出低级机器人动作,同时解决其他互联网规模的视觉语言任务。RT2是在网络规模数据上训练的微调大型视觉语言模型衍生出来的模型家族,将动作编码为对应的语言文本token并协同微调训练。
2024-10-11 11:21:00
1216
原创 RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE
数据收集:在厨房环境中收集大规模数据集,训练数据由人类演示组成并附以文本描述,数据集包含130k个演示,使用大量不同对象组成超过700个不同的任务。模型构建具体网络架构如下EfficientNet - B3由MBConv+FiLM构成以进行图像编码与多模态融合,其中MBConv通过分步卷积以牺牲计算效率为代价减少训练参数,FiLM将输入的语言特征转换为对图像特征的缩放γ\gammaγ和偏移β\betaβ从而融合图像和语言特征。
2024-10-10 21:48:35
887
原创 Open X-Embodiment: Robotic Learning Datasets and RT-X Models
通常在大型和多样化的数据集上训练的大规模通用模型往往能够超过在较小但更多任务特定的数据上训练的狭义通用模型。通用策略很难应用于机器人领域:机器人操作是物理交互、图像、语言等复杂领域的融合;交互数据收集由于硬件成本和采集效率低下难以构建超大型数据集;过去,由于各个数据集的环境、任务设置、机器人类别的不同,没有提出有效的数据联合方法弥补单个数据集过于狭隘的缺陷,本文的主要贡献就在于提出了相关的解决方案。不同机器人的观察空间和动作空间存在显著差异。
2024-10-10 19:05:57
830
原创 Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects
输入为256×256的二进制观测轨迹和随机采样的动作修正值,Delta Dynamics网络预测每个对应修正动作的操作结果,根据度量选取修正值修正动作,度量小于阈值或迭代次数大于设定值停止。动作修正值嵌入轨迹图:将NaN_aNa维的动作修正值δai\delta a_iδai广播成相同通道数的图像,其中,δa\delta aδa从标准高斯分布中采样,方差与轨迹度量成比例关系时可以加速收敛。网络与训练:DeepLabV3+网络架构,二进制交叉熵损失函数,AdamW优化器。
2024-10-10 16:12:10
1005
原创 DextAIRity: Deformable Manipulation Can be a Breeze
设计了两个任务:展平与开袋,通过鼓风机进行非接触的稠密交互。分为两个部分执行,通过输出空间动作图并基于价值贪心策略预测夹爪的抓取点,双臂抓取后提起柔性对象移动到固定点,鼓风机通过预测在固定位置的修正位姿与物体交互。抓取与吹风网络通过仿真环境中的自监督优化,两个网络解耦训练,两个任务的奖励分别设置为向下投影和侧面投影的面积。展平完全在仿真环境中训练,开袋完全在现实数据中训练。
2024-09-30 18:19:25
665
原创 Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
目前主流的两种演示方式:遥操作和人类演示,都不是充分有效的演示收集方式,前者对硬件和操作人员来说具有较高的成本,后者对机器人表现出很大的具身差距。使用传感器化的手持式夹持器作为数据收集接口成为一种很有前途的中地替代方案——保持直观和灵活的同时最小化实施差距,虽然理论上用户可以通过这些手持设备收集任何动作,但其中大部分数据无法传输到有效的机器人策略中。尽管在数以百计的环境中实现了令人印象深刻的视觉多样性,但收集的动作仅限于简单的抓取[或准静态的拾取和放置,缺乏动作多样性。
2024-09-30 12:07:36
572
原创 Cloth Funnels: Canonicalized-Alignment for Multi-Purpose Garment Manipulation
几乎是随着奖励的提升损失的下降规划化效果的提升而增加的任务成功率,毕竟是简单的关键点提取方法,对于遮挡没有鲁棒性,而且针对柔性布料的遮挡,没有先验可以估计被遮挡的关键点,预处理步骤可能是必须的。主要任务量在于服装规范化(展平),通过动-静态动作基元结合取得了比FlingBot更好的效果,利用空间动作映射的技巧,通过输出价值图以获取细粒度的操作,一定程度上证明服装预处理的必要性。:对齐可以简单设计为每个顶点的平均距离,但变形形状不匹配的异常点平均距离最小化反而会影响实际对齐的效果。训练了12500次迭代。
2024-09-29 19:13:09
866
原创 GarmentNets: Category-Level Pose Estimation for Garments via Canonical Space Shape Completion
解决的核心思想是将可变形物体位姿估计问题建模为正则空间中的形状补全任务,定义了共享归一化空间的类别级位姿,通过将观察到的局部曲面映射到正则空间,并在该空间完成形状补全,输出顶点带有正则坐标标签的完整3D网格描述服装的完整构形。利用观察点位置信息,网络获得了对镜像预测的额外鲁棒性,如果属于左袖的点被预测到正则空间的右侧,而3D-UNet也会将其映射到右侧特征,wrap网络将其映射到右袖的实际空间中。已知输入点云的抓取位置,利用最接近原点的观测点的正则坐标预测推断预测网络上的抓取点。
2024-09-29 15:27:39
1377
原创 Ubuntu双系统安装——简单暴力错误少——移动硬盘即插即用
油管学习cmake无意看到博主的ubuntu设计的很好看入坑了。然而拿ubuntu作为主力系统运行了一段时间后,发现日常使用并不是那么方便,所以踏上双系统这条不归路,一走就是五天。网络上有很多相关的教程,但是有一些重要的细节感觉是没有被记录的,这里我来说说安装心得。经过美化后的Ubuntu,相当简约美观,直接在系统上跑的体验会比在虚拟机和服务器好很多。美化的教材可以参考Ubuntu 20.04 桌面美化 (zhihu.com)。优化大致流程。
2023-12-02 18:41:36
842
1
原创 PVN3D——WIN10 PyTorch1.8 Linemod-render最全复现
研究6d位姿估计,复现经典代表性论文pvn3d,在win10和Ubuntu20.04两个平台上实现,遇到数不清的bug,凭借记忆对bug进行记录。
2023-08-03 21:56:22
3350
40
空空如也
电脑开机一直卡在黑屏
2021-12-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人