deeplearning
文章平均质量分 94
视言
这个作者很懒,什么都没留下…
展开
-
大模型时代的具身智能系列专题(一)
从图灵定义看,知识由感知、智能体环境交互获得,具身智能要拥有足够的知识完成机器人任务。从字面上理解就是具有身体的智能,可以从交互中学习并有可能涌现新能力。近期的具身智能更多和大模型和端到端有关,是通过学习的方式涌现的智能。原创 2024-06-19 20:30:00 · 2490 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十)
该论文提出了一个开源的通用机器人操作策略Octo,论文实验主要评估Octo在零样本多机器人控制和few-shot策略微调中的性能,以及不同设计决策的影响。Octo是一个基于大型transformer的策略预训练,它是迄今为止最大的机器人操作数据集,包含800k个机器人轨迹。Octo可以解决各种开箱即用的任务,Octo的组合设计能够调整新的输入和动作空间,使Octo成为广泛的机器人控制问题的通用初始化。除了模型本身,本方法还发布了完整的训练和微调代码,以及使大型机器人数据集更容易训练的工具。原创 2024-06-05 20:00:00 · 1131 阅读 · 0 评论 -
大模型时代的具身智能系列专题(九)
Lerrel Pinto是NYU Courant的计算机科学助理教授,也是用机器人和人工智能实验室(CILVR小组)的一员。在加州大学伯克利分校读博士后,在CMU机器人研究所读博士,在印度理工学院古瓦哈蒂读本科。研究目标是让机器人在我们生活的混乱世界中进行归纳和适应。研究方向主要集中在机器人学习和决策上,重点是大规模学习(数据和模型),感官数据的表示学习,开发算法来模拟动作和行为,适应新场景的强化学习,以及构建开源的affordable的机器人。原创 2024-06-04 22:07:56 · 1157 阅读 · 0 评论 -
大模型时代的具身智能系列专题(八)
Chelsea Finn是Stanford计算机科学与电气工程系的助理教授。她的实验室IRIS通过大规模的机器人互动研究智能,并与SAIL(斯坦福人工智能实验室)和ML Group(机器学习团队)有合作关系。他还在谷歌的Google Brain团队工作。她对机器人和其他智能体通过学习和互动来发展广泛智能行为的能力感兴趣。他在UC Berkely完成了计算机科学博士学位,师从Sergey Levine,本科毕业于MIT。原创 2024-06-04 20:49:00 · 715 阅读 · 0 评论 -
大模型时代的具身智能系列专题(七)
王鹤,北京大学前沿计算研究中心助理教授,本科毕业于清华大学,博士毕业于斯坦福大学,师从美国三院院士Leonidas. J Guibas教授。他创立并领导了具身感知与交互实验室(EPIC Lab),实验室立足三维视觉感知与机器人学,重点关注具身机器人在三维复杂环境中的感知和交互问题,研究目标是以可扩增地方式发展高泛化性的机器人视觉和控制系统。研究成果覆盖物体抓取、功能性操控、灵巧操作及寻物导航。原创 2024-06-03 22:14:46 · 986 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十一)
马萨诸塞大学阿默斯特分校的一名教员,也是麻省理工学院- ibm沃森人工智能实验室的研究经理。在麻省理工学院博士后期间,和Antonio Torralba教授、Daniela Rus教授和Josh Tenenbaum教授一起工作。在此之前,在清华大学以最高荣誉完成了博士学位,导师是姚期志教授。研究涉及计算机视觉、人工智能、认知科学和机器人技术的交叉领域。研究的首要目标是建立一个类似人类的自主代理,能够在物理世界中感知、推理和行动。原创 2024-06-03 21:09:42 · 873 阅读 · 0 评论 -
大模型时代的具身智能系列专题(六)
提出了GenSim,一个可扩展的LLM框架,以增强机器人策略的各种仿真任务,其目的是将LLM的基础和编码能力提炼到低级策略中。我们研究了目标导向和探索性方法中的LLM提示、检索增强生成和微调,以生成新的仿真任务代码。我们利用生成的任务来训练多任务策略,这些策略显示了对模拟和现实世界中的新任务的泛化能力。局限性:生成的代码仍然包含基本的语法错误,并且存在幻觉,并且缺乏物理和几何细节的基础。另一个问题是代码生成评估度量是不完美的(例如不一致的语言描述),因此生成的任务可能需要在策略训练之前进行一些手动过滤。原创 2024-05-31 22:15:17 · 1073 阅读 · 0 评论 -
大模型时代的具身智能系列专题(五)
宋舒然是斯坦福大学的助理教授。在此之前,他曾是哥伦比亚大学的助理教授,是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。原创 2024-05-29 22:07:36 · 1645 阅读 · 1 评论 -
大模型时代的具身智能系列专题(四)
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:• RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为• 由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。原创 2024-05-28 21:35:40 · 964 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二)
自由形式语言指令 L 指定了一个操作问题,例如“打开最顶部的抽屉”。然而,根据 L 生成机器人轨迹是很困难的,因为 L 可能具有任意长度,或者是不明确的(例如,需要上下文语义)。相反,我们专注于问题的各个阶段(子任务)l_i,它们明确地指定了一个操作任务 (例如,“抓住抽屉把手”,“打开抽屉”),其中被分解的子阶段(子任务)L→l1l2lnL→l1l2...ln由高级规划器(例如,一个LLM或一个基于搜索的规划器)给出。原创 2024-05-27 21:13:06 · 1318 阅读 · 0 评论 -
大模型时代的具身智能系列专题(三)
文章提出了VILA框架来做机械臂task planning,通过闭环视觉反馈的机制,可以根据实际任务进展进行replan,有着较好的鲁棒性,可以给相关研究者带来一些启发。VILA在真机上也达到了很好的效果,推进了这一领域的发展。另外,目前文章还有几处可能的局限和问题:1. 结论解释欠缺:CLIPort-Short(只在单步指令上训练,如:拿起黄色方块)比 CLIPort-Long(在high-level指令上训练,如:把字母按字母序排列)效果差,文章似乎没有对这一点做解释。原创 2024-05-27 22:24:51 · 1771 阅读 · 0 评论 -
通往自动机器智能的隐变量能量模型(work in progress)
在AI达到类人水平并带来新的技术革新之前,当前的自动化系统仍然有重大的局限性。最理想的情况下,会出现L5自动驾驶、家用机器人、虚拟助理,这些机器人会学习可靠的世界模型,然后进行推理,对复杂的行动序列做出计划。本文引入了基于能力的潜变量模型分层联合嵌入预测架构(H-JEPA)。原创 2023-07-03 09:42:00 · 240 阅读 · 0 评论 -
论智能出现的简约性和自恰性原理(下)
智能闭环中的视觉图形与决策,智能的学科关联与演进原创 2022-08-18 08:43:04 · 1259 阅读 · 0 评论 -
论智能出现的简约性和自恰性原理(上)
一个理解深度网络的新框架:压缩闭环转录。这个框架包含两个原理:简约性(parsimony)与自洽性/自一致性(self-consistency),分别对应 AI 模型学习过程中的“学习什么”与“如何学习”,被认为是构成人工/自然智能的两大基础。......原创 2022-08-14 08:08:37 · 875 阅读 · 0 评论 -
深度神经网络的不确定性(下)
目录不确定性的测量和定性估计分类任务中的不确定性测量分类任务中的数据不确定性测量分类任务中的模型不确定性测量分类任务中的分布不确定性完备数据集性能测量估计回归任务中的不确定性测量回归任务中的数据不确定性测量回归任务中的模型不确定性估计回分割任务中的不确定性校准校准方法正则化方法后处理方法不确定性估计校准方法估计校准质量数据集与baseline不确定性估计的应用总结不确定性的测量和定性顾名思义,我们有了各种建模和估计不确定性的方法,就需要不同的测量来评估他们的好坏。通常情况下这些方法的正确性和可靠性是不能原创 2022-02-19 09:23:56 · 3542 阅读 · 0 评论 -
深度神经网络的不确定性(中)
目录不确定度估计方法A.Single Deterministic MethodsB.Bayesian Neural NetworksC. Ensemble MethodsD. Test Time AugmentationE. Neural Network Uncertainty Quantification Approaches for Real Life Applications不确定度估计方法A.Single Deterministic MethodsB.Bayesian Neural Netwo原创 2021-10-22 20:28:28 · 5518 阅读 · 4 评论 -
深度神经网络的不确定性(上)
深度神经网络的不确定度摘要深度神经网络的不确定度A.数据获取B.深度神经网络设计与训练欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入摘要基本神经网络没有实现确定性估计,或者会遭遇过置信或欠原创 2021-10-01 10:12:42 · 5128 阅读 · 1 评论 -
神经网络不work的原因
文章目录Neural Network Check List 如何使用这个指南 数据问题 1 检查输入数据 2 试一下随机输入 3 检查数据加载单元 4 确保输入和输出是一一对应的 5 输入和输出之间的关系映射的随机性会不会太强了? 6 数据集中的噪声 7 打乱数据集 8 控制类别不平衡现象 9 会不会是训练数据不足? 10 尽量你的训练批次中的样本标签多样化 11 减小batch size 12 尝试经典数据集(MNI转载 2021-05-06 22:18:23 · 253 阅读 · 0 评论 -
caffe源码解析之blob(1)
看过caffe官方文档的话,应该会知道,它可以分为三层:Blob、Layer、Net。Blob是一个四维的数组,用于存储数据,包括输入数据、输出数据、权值等等;Layer层则是神经网络中具体的各层结构,主要是计算的作用,在根据配置文件初始化结构后,前向计算结果,反向更新参数,都是它要做的,而它的输入和输出都是Blob数据;Net的话,就是多个Layer组合而成的有向无环图结构,也就是具体的网络了。转载 2015-02-05 17:19:25 · 1894 阅读 · 0 评论 -
caffe源码解析之添加新的Layer(maxout)
本文分为两部分,先写一个入门的教程,然后再给出自己添加maxout与NIN的layer的方法(一)其实在Github上已经有答案了(https://github.com/BVLC/caffe/issues/684)Here's roughly the process I follow.Add a class declaration for your laye转载 2015-02-07 19:53:12 · 4973 阅读 · 1 评论 -
caffe源码解析之cblas函数
常用 blas 函数Y=alpha * X +beta*Y template <>void caffe_cpu_axpbyfloat>(const int N, const float alpha, const float* X, const float beta, float* Y) { cbl转载 2015-05-07 17:45:07 · 3549 阅读 · 1 评论 -
vs2012编译caffe
一、准备 需要用到的东西我已经帮大家全部准备好了,有2015年6月5日刚刚从caffe官方master分支fork过来的源代码:https://www.github.com/happynear/caffe-windows。有我自己亲手制作的第三方库http://pan.baidu.com/s/1sjE5ER7,在源码的根目录下建立个3rdparty文件夹,把文件解压进去就可以了。转载 2015-06-19 18:08:12 · 2661 阅读 · 0 评论 -
Windows8.1(64位)下用vs2013编译cxxnet
1. 下载关于cxxnet的平台请参考http://www.csdn.net/article/2015-05-21/2824742?reload=1。在https://github.com/dmlc下载cxxnet、dmlc-core、rabit、m-shadow,另外就是parameter_server是可选择的,本教程不包括。Opencv在官网下载即可,最好是2.4.10版本原创 2015-06-22 16:40:58 · 2174 阅读 · 2 评论 -
LASSO问题
Sparsity 是当今机器学习领域中的一个重要话题。John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到:Some current challenges … are high dimensional data, sparsity, semi-supervised learning, the relation between computat转载 2015-08-31 17:06:46 · 8720 阅读 · 0 评论 -
mxnet代码解析之dependency engine
mxnet代码解析之engine篇mxnet的执行引擎用于序列化有依赖关系的一系列功能,目前有三种方式的引擎:NaiveEngine,ThreadedEnginePooled,ThreadedEnginePerDevice。这三种引擎都始于一个基类Engine,第一种引擎没有在mxnet中真正使用,而后两种引擎并不直接继承于Engine,而有一个中间类ThreadedEngine。在剖析engine原创 2016-07-22 20:58:38 · 3397 阅读 · 0 评论 -
mxnet代码解析之computation graph
mxnet的前后向计算是以图模型构建的,它有两个重要的类,一个是Symbol,另一个是StaticGraph。Symbol和StaticGraph可以相互转换,Symbol提供了灵活的方式来合成节点,StaticGraph则包含了实际的配置。Symbolsymbol类表示网络结构动态生成的符号计算图,symbol基本结构如下:class Symbol {protected: struct No原创 2016-07-28 15:10:58 · 5373 阅读 · 0 评论 -
deeplearning中的优化算法
英文原版:http://sebastianruder.com/optimizing-gradient-descent/index.html#batchgradientdescent 翻译:http://blog.csdn.net/heyongluoyao8/article/details/52478715http://yufeigan.github.io/2014/11/29/Deep-Learn原创 2016-11-29 15:04:30 · 1115 阅读 · 0 评论 -
mxnet代码解析之mshadow
mshadow采用了表达式模板的技巧增强了c++矩阵库的性能。 mshadow用于数据存储结构的主要继承脉络如下: Tensor->TRValue->RValueExp->Exp 继承链的顶端是所有表达式的基类Exp:template<typename SubType, typename DType, int exp_type>struct Exp { public: /*! \ret原创 2016-08-02 15:36:49 · 7614 阅读 · 0 评论 -
mxnet代码解析之nnvm
概述nnvm启发于LLVM,它利用operator的高层信息去优化计算图;nnvm是从mxnet的实现中剥离出来一个模块,该模块完成了从symbol描述的网络到graph描述的符号计算图的生成和优化工作,而这样的模块化剥离仿效了unix的哲学,使得mxnet能够在不同的设备应用和场景中自主裁剪各功能模块。nnvm中的graph包含了计算图的结构,并且包含了一个从字符串到任意类型的属性映射map< s原创 2017-02-12 22:36:28 · 8941 阅读 · 2 评论 -
论文心得:BatchNorm及其变体
本文记录BatchNormalization及其四个拓展,分别是BatchRenormalization、AdaBN、WeightNormalization、NormalizationPropagation原创 2016-03-27 22:28:33 · 13276 阅读 · 0 评论 -
深度强化学习路在何方
一、深度强化学习的泡沫2015年,DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现。自此以后,...转载 2018-07-19 10:55:40 · 7720 阅读 · 1 评论 -
caffe源码解析之Layer层(1)
前言老实说,caffe中的layer层代码比较多,各种抽象看起来比较绕。官方关于Layer的教程写的很清楚,我根据这个文档,简单画了个图,再理解起来就方便了一些。layer.hpp和layer相关的头文件有:common_layers.hppdata_layers.hpplayer.hpploss_layers.hppneuron_layers.hppvision_l转载 2015-02-05 17:21:10 · 1937 阅读 · 0 评论