- 博客(303)
- 资源 (2)
- 收藏
- 关注
原创 强化学习第五讲
本文介绍了强化学习中的策略梯度方法及其优化技术。策略梯度直接优化策略参数,核心是策略梯度定理,通过计算期望回报的梯度更新策略。基础算法REINFORCE通过采样轨迹计算梯度,但存在高方差问题。改进方法包括引入基线函数(如值函数)降低方差,以及Actor-Critic框架结合值函数估计优势。进一步优化涉及信任域方法(如TRPO、PPO)约束更新步长,提升稳定性。策略梯度适用于连续动作空间任务(如机器人控制、游戏AI)。尽管计算效率存在挑战(需大量采样),但通过重要性采样和离线策略学习可提升效率,而兼容性函数近
2026-06-05 13:18:27
189
原创 强化学习第四讲
本文通过两张示意图引出了深度强化学习的核心概念与实践流程。第一张图阐述了智能体与环境交互的基本范式,这是所有强化学习算法的理论基础。第二张图则可能展示了具体算法(如 PPO)的训练动态或网络架构,为理解算法实现提供了直观参考。随后,我们详细拆解了实现深度强化学习项目的关键操作步骤,从环境搭建、智能体设计到数据收集与策略更新,形成了一个完整的闭环。掌握这些技术点与步骤,有助于读者从理论过渡到实践,逐步构建和优化自己的强化学习智能体。
2026-05-21 12:35:40
195
原创 cs285-2模仿学习
摘要: 模仿学习通过专家演示数据学习策略,核心方法包括行为克隆(BC)和DAgger。BC将模仿视为监督学习,但存在分布偏移问题;DAgger通过迭代收集策略生成状态下的专家标注缓解偏移。逆强化学习(IRL)和生成对抗模仿学习(GAIL)进一步推断专家潜在目标,GAIL结合GAN思想端到端训练策略。应用涵盖机器人、自动驾驶等领域,关键挑战包括数据质量、多模态行为及安全性。前沿方向结合强化学习与元学习提升性能。
2026-05-19 19:39:31
412
原创 自动驾驶(FSD/Autopilot)的数据采集-特斯拉纯视觉方案
特斯拉自动驾驶数据采集依赖全球量产车队,通过"影子模式"对比人类驾驶与算法预测,触发不一致时采集关键数据。采用定向采集策略,云端下发特定场景需求,车队匹配后上传。硬件上依靠8个摄像头和车辆传感器获取全真视觉数据。最新版本强化负样本采集,结合自动标注技术将2D数据转为3D向量空间真值。这种分布式、闭环式采集模式实现了高效低成本的数据积累,成为特斯拉自动驾驶技术的核心优势。
2026-05-18 15:14:06
617
1
原创 具身智能课程学习表
这篇文章系统梳理了具身智能与机器人学习的完整课程体系和学习路径。核心内容包括:1)基础课程如现代机器人学、AI导论和机器学习;2)进阶课程如计算机视觉、深度强化学习;3)高阶课程如机器人操作和最优控制。文章提供了定制化学习路径建议,特别强调粒子滤波、卡尔曼滤波等状态估计算法的重要性,并详细解析了每门课程的核心内容和学习资源。整体构建了从基础理论到前沿技术的完整知识框架,为具身智能领域的学习者提供了清晰的学习路线图。
2026-05-05 21:23:01
701
原创 强化学习-1 cs188
深度学习解决了Generalization(泛化)问题,通过神经网络拟合高维空间。强化学习解决了Exploration(探索)和Regret(遗憾)问题,通过策略优化寻找长远利益。仿真环境(如你的项目)解决了Sampling(采样)成本问题,让你能在虚拟世界低成本地试错。这张幻灯片是理解规划(Offline Solution)与学习(Online Learning)核心差异的视觉终结。它生动地展示了为什么在你的具身智能研究中,单纯靠“想”是不够的。离线 (MDPs):计算密集型。我有地图,我能算。
2026-05-05 20:53:21
408
原创 马尔可夫决策过程(MDP)
建模能力:能把现实任务(点外卖、抓物体)拆解成SAPRS, A, P, RSAPR。直觉判断:看到任务能立刻分辨是该用“纯搜索规划”还是“强化学习”。工程落地:能通过修改奖励函数RRR和折扣因子γ\gammaγ来引导 AI 做出符合人类预期的行为。
2026-05-05 17:42:12
166
原创 Modern Robotics 6
本文介绍了现代机器人学中的关键概念,包括开链与闭链运动学原理。主要内容分为三部分:1)基础概念部分阐述了机器人运动学的基本理论框架;2)数值逆运动学部分讲解了通过数值方法求解逆运动学问题的技术;3)闭链运动学部分分析了闭环机构特有的运动学特性与求解方法。文中通过多幅图示直观展示了相关数学模型和算法流程,涵盖了从理论到应用的完整知识体系。这些内容为机器人运动规划与控制提供了重要的理论基础。
2026-05-05 15:14:05
34
原创 Modern Robotics 5
本文介绍了现代机器人学中的速度运动学与静力学基础概念。主要内容包括:1)速度运动学将关节运动转换为末端执行器运动;2)空间雅可比矩阵和物体雅可比矩阵的推导与应用;3)开链机构静力学分析;4)奇异位形的定义与识别;5)可操作度的概念及其椭圆表征方法。这些内容构成了机器人运动控制的理论基础,为理解机械臂运动特性与力传递关系提供了重要工具。
2026-05-05 15:07:19
51
原创 现代机器人学 | Modern Robotics 4 -指数级公式-空间坐标系&指数级公式-末端坐标系
《现代机器人学中的指数级公式应用》摘要:本文介绍了机器人运动学中的两种指数级公式表达方式。空间坐标系下的公式表现为末端位姿等于关节指数运动与初始位姿的乘积,通过图示展示了相关数学模型。末端坐标系表达则采用末端坐标系描述关节运动,所有指数项右乘在M矩阵之后。文章对比了两种表达方式的差异,并提供了详细的公式推导和图示说明,为机器人运动学建模提供了理论依据。最后通过总结图表归纳了关键概念和公式转换关系,完整呈现了指数级公式在机器人学中的应用框架。
2026-05-05 15:00:25
45
原创 现代机器人学 | Modern Robotics3
本文系统介绍了现代机器人学中的刚体运动数学表示方法。主要内容包括:1)旋转矩阵描述刚体姿态;2)角速度表示瞬时转动状态;3)旋转指数坐标将转动轴和角度结合;4)齐次变换矩阵统一描述位姿;5)运动旋量完整描述刚体瞬时运动(转动+平移);6)运动指数坐标通过积分将瞬时运动转化为有限位移;7)力旋量表示作用在刚体上的力和力矩。这些数学工具构成了机器人运动分析和控制的基础,其中运动旋量和力旋量是理解机器人运动约束和动力学的关键概念。全文通过清晰的层次结构,展示了从静态位姿描述到动态运动分析的完整理论框架。
2026-05-05 14:54:24
340
原创 现代机器人学 | Modern Robotics 1-2
本文总结了现代机器人学中关于自由度、位形空间拓扑、速度约束等核心概念。主要内容包括:1)格鲁布勒公式用于计算机构自由度;2)位形空间的拓扑性质决定运动可能性,其中完整约束限制位形,非完整约束限制速度;3)Pfaffian约束描述瞬时运动限制(如小车不能横移);4)区分工作空间(机器人可达范围)与任务空间(目标操作区域)。这些概念为具身智能提供了物理约束框架,避免在路径规划和控制中违反基本物理规律。文章强调,在智能算法设计前,必须首先分析几何约束、动力学约束和信息约束,确保策略在物理上可行。
2026-05-05 14:53:09
553
原创 AI目前可以做什么
AI能力边界全景图:三类任务划分明确 ✅已掌握领域: 规则明确的数字博弈(国际象棋/围棋) 模式识别任务(语音翻译/图像识别) 标准化环境操作(高速公路驾驶/网购) ❌未攻克难题: 非标准化物理交互(洗碗/实体购物) 高精度操作(外科手术/建筑施工) (工地广告牌幽默提醒:"GPT来建楼?技能无可替代") ❓争议领域: 复杂长尾场景(城市驾驶) 创新性工作(数学证明) 情感共鸣创作(刻意幽默写作) 摘要清晰呈现了AI当前的能力版图,涵盖成熟应用、现实瓶颈及争议地带。
2026-05-05 12:22:02
72
原创 video2gif-软件
https://www.video2edit.com/zh/result#j=a1e87457-6aff-45f2-b43e-4f2390d7726ahttps://www.freeconvert.com/convert/video-to-gif/download
2024-08-10 17:26:22
1032
原创 大语言模型生成无人系统(如机械臂、无人机等)可以执行的指令序列
大语言模型生成无人系统(如机械臂、无人机等)可以执行的指令序列涉及将自然语言指令转化为具体的、可执行的指令集合。以下是一个详细的流程,展示了如何从自然语言指令生成无人系统的执行指令序列。
2024-08-09 16:24:51
1806
原创 智慧语音助手学习
近年来,随着深度学习技术的发展,特别是序列标注任务(如基于条件随机场的序列标注)和预训练语言模型(如BERT、GPT等),槽位填充在对话系统中的精度和效率有了显著提升。这个技术路线图涵盖了基于大模型的语音助理系统开发的主要步骤和关键技术,帮助产品经理规划和管理整个开发过程,确保系统能够按照预期功能和性能要求进行实现和部署。:根据填充的槽位和识别的意图,决定系统如何响应用户,可能涉及到后续的询问、确认或直接操作后端服务。:填充识别出的槽位,将其具体的值提取出来,并与系统的后端服务进行集成,以完成用户的请求。
2024-06-24 14:37:36
1824
原创 深度学习-注意力机制和分数
注意力机制源于对人类视觉的研究,描述了人类在处理大量信息时,会选择性地关注某些信息而忽略其他信息的过程。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,这种机制被称为注意力机制。注意力机制是一种强大的工具,它通过模拟人类处理信息的方式,帮助深度学习模型更加高效地处理大量数据。随着研究的深入,注意力机制在各个领域的应用也将越来越广泛。注意力分数在注意力机制中扮演着关键角色,它决定了模型在处理信息时对不同部分的关注程度。
2024-06-12 07:59:36
1650
4
原创 深度学习-语言模型
语言模型的核心思想是通过对大量文本数据的训练,学习到语言的统计规律,进而能够预测下一个词或序列的概率。序列模型是一类用于处理序列数据的模型,这些序列数据可以是离散的(如文本、时间序列上的符号)或连续的(如股票价格、传感器数据)。:虽然两者都使用概率作为评估指标,但语言模型通常使用困惑度(Perplexity)来评估模型在测试集上的性能,而序列模型则可能使用不同的评估指标,如准确率、召回率、F1分数等。:序列模型是一个更通用的概念,它涵盖了所有处理序列数据的模型,包括但不限于文本数据。
2024-05-29 08:20:54
2276
1
原创 深度学习-序列模型
序列模型是输入输出均为序列数据的模型,它能够将输入序列数据转换为目标序列数据。常见的序列模型类型包括一对一、一对多、多对一、部分多对多和完全多对多。序列模型是一种强大的工具,能够处理各种序列数据并生成有用的输出。随着深度学习技术的不断发展,序列模型在自然语言处理、语音识别等领域的应用越来越广泛,并持续推动着这些领域的发展。
2024-05-28 08:20:48
1903
1
原创 智能时代下,人机交互和虚拟现实的机遇和挑战
人机交互的本质解决什么问题:以前提升人和系统交互的效率,目前人工智能越来越强,人需要影响的因素越来越小,后面还是不是来提高人利用系统的效率,而是通过人机交互来提升用户本身的情感抚慰。主流代表性产品,都需要后端大模型支持,把人的智能和机器智能融合起来。比尔盖茨:第一个惊喜是图形学界面,第二个是ai agent。人机交互为中心来看,下一代的人机协同,解决不确定的问题。把人类智能和机器智能结合起来。人机交互作为一个大方向,2019年以后是协同共进。
2024-05-28 08:08:27
662
原创 深度学习模型
深度学习网络模型是人工智能领域的重要分支,它通过模拟人脑神经网络的工作方式来处理数据并识别模式。以上是深度学习网络模型的一些主要类型及其特点。这些模型在各自的领域内取得了显著成果,推动了深度学习技术的发展。
2024-05-27 08:39:57
805
原创 深度学习-样式迁移
样式迁移(Neural Style Transfer)是计算机视觉领域中的一项技术,它允许用户将一张图片(样式图片)的风格迁移到另一张图片(内容图片)上,从而生成一张融合了两种图片特征的新图片。
2024-05-27 08:18:48
482
原创 深度学习-转置卷积
转置卷积(Transposed Convolution),也被称为反卷积(Deconvolution),是深度学习中的一种操作,特别是在卷积神经网络(CNN)中。它可以将一个低维度的特征图(如卷积层的输出)转换为更高维度的特征图(如上一层的输入),从而实现了上采样或反卷积的效果。在图像分割任务中,转置卷积可以用于在解码器中恢复原先的尺寸,从而对原图中的每个像素进行分类。与传统的上采样方法相比,转置卷积的上采样方式并非预设的插值方法,而是具有可学习的参数,可以通过网络学习来获取最优的上采样方式。
2024-05-24 08:13:26
800
原创 计算机视觉中-语义分割
与图像分类(为整个图像分配一个标签)和目标检测(识别和定位图像中的目标)不同,语义分割要求算法对图像进行更精细的理解,以区分同一类别中的不同对象实例(这通常被称为实例分割,但语义分割通常不考虑实例级别的区分)。语义分割是计算机视觉中的一个关键技术,它涉及对图像中的每个像素进行类别划分,从而识别出图像中的不同物体或区域。具体来说,语义分割就是按照“语义”给图像上目标类别中的每一点打上一个标签,使得不同种类的东西在图像上被区分开来,可以理解为像素级别的分类任务。这些标签用于指示图像中每个像素所属的类别。
2024-05-23 08:56:36
2467
1
原创 物体检测算法-R-CNN,SSD,YOLO
目标检测算法主要分为两个类型(1)two-stage方法,如R-CNN系算法(region-based CNN),其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高。
2024-05-22 08:33:56
2676
1
原创 深度学习需要做的事情
深度学习网络的训练和优化涉及多个方面,包括网络设计、数据准备、特征提取、调参等。虽然调参是优化模型性能的关键步骤之一,但网络的设计和数据的准备同样重要。综合考虑所有这些因素,才能构建高性能和泛化能力强的深度学习模型。因此,深度学习网络并不仅仅是调参,而是一个涉及多个环节的复杂过程。
2024-04-10 00:45:00
1073
原创 卷积神经网络-ResNet
ResNet(Residual Network)是由Kaiming He等人在2015年提出的一个深度学习模型架构,它通过引入残差连接(Residual Connection)来解决深度神经网络训练过程中的梯度消失和梯度爆炸问题。ResNet在ImageNet图像识别挑战赛上取得了非常好的成绩,并且被广泛应用于各种计算机视觉任务。ResNet有几个不同版本,如ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152等,它们的主要区别在于网络的深度和参数数量。
2024-04-09 00:30:00
1570
原创 卷积神经网络-批量归一化
批量归一化是一种非常有效的深度学习技术,能够加速模型训练、增强模型稳定性和允许构建更深的网络。在实际应用中,批量归一化已成为许多深度神经网络架构的标准组件。
2024-04-07 18:15:00
1532
原创 GoogleLeNet-含并行连接的网络
GoogleLeNet(Inception v1)是一个创新的深度卷积神经网络模型,它通过引入“Inception模块”和多尺度特征提取的策略,显著提高了模型的参数效率、计算效率和分类准确率。GoogleLeNet的成功不仅证明了深度学习在计算机视觉领域的强大潜力,而且也为后续更深、更复杂的卷积神经网络模型(如Inception v2、Inception v3、Inception v4等)的研究和应用提供了有益的启示。
2024-04-05 01:45:00
1185
原创 卷积神经网络(CNN)的发展经历了多个阶段和里程碑式的模型
卷积神经网络从LeNet-5到自适应卷积网络,经历了多个重要的发展阶段,形式逐渐丰富和复杂。这些模型不仅在图像分类、物体检。卷积神经网络(CNN)的发展经历了多个阶段和里程碑式的模型。
2024-04-04 11:27:21
3173
原创 网络中的网络-NiN
NiN是一个创新的深度卷积神经网络模型,它通过引入“网络中的网络”概念和1x1的卷积核设计,显著提高了模型的非线性能力、特征提取能力和参数效率。NiN的成功证明了深度学习在计算机视觉领域的进一步潜力,并为后续更深、更复杂的卷积神经网络模型的研究和应用提供了有益的启示。
2024-04-04 11:05:39
770
原创 VGG网络模型
VGG是一个经典的深度卷积神经网络模型,它的简单统一的网络结构和深度的网络层次使得它在图像分类任务上取得了优秀的性能。虽然VGG模型的参数较多,计算量较大,但它为深度卷积神经网络的发展和应用奠定了坚实的基础。VGG和AlexNet都是在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得突破性成果的深度卷积神经网络模型。VGG和AlexNet都是深度学习在计算机视觉领域的重要里程碑,它们共同推动了深度学习在图像分类、物体检测和物体定位等任务上的快速发展。
2024-04-04 10:21:01
2533
原创 AlexNet网络模型
AlexNet 是深度学习历史上的一个重要里程碑,它的成功证明了深度卷积神经网络在计算机视觉任务上的巨大潜力。其后,更深、更复杂的网络架构也在不断出现,但 AlexNet 为深度学习和计算机视觉领域的发展奠定了坚实的基础。ImageNet 是一个大规模视觉识别挑战赛(ILSVRC)的数据集,也是一个计算机视觉领域的重要基准测试集。ImageNet 数据集包含超过一百万张标注图像,涵盖了一千个不同类别的物体。该数据集用于评估和比较各种图像分类、目标检测和物体定位算法的性能。
2024-04-04 08:24:24
1225
原创 卷积层+多个输入通道
在深度学习中,卷积神经网络(CNN)通常用于处理具有多个输入通道的数据。当输入数据具有多个通道(例如彩色图像的RGB通道)时,卷积操作可以同时在每个通道上进行,并将各通道的结果相加,从而得到单个输出特征图。
2024-04-01 22:01:51
295
原创 卷积神经网络-池化层
池化层(Pooling Layer)是深度学习神经网络中的一个重要组成部分,通常用于减少特征图的空间尺寸,从而降低模型复杂度和计算量,同时还能增强模型的不变性和鲁棒性。池化层在CNN中起到了非常重要的作用,可以有效地减少模型的复杂度,提高模型的计算效率,并增强模型对输入数据的不变性和鲁棒性。例如,一个2x2的最大池化层会将每个2x2的方块区域中的4个值中的最大值作为一个单独的值输出到下一层。通过减少特征图的空间尺寸,可以减少模型的参数数量和计算量,从而加速模型的训练和推理过程。
2024-04-01 21:59:33
2206
原创 卷积神经网络-卷积层
虽然深度学习领域已经涌现出许多新的模型和技术,但多层感知机(MLP)仍然在某些特定的应用和场景中保持其重要地位。选择使用MLP还是其他深度学习模型取决于具体的任务需求、数据类型和应用场景。在实际应用中,人们会根据问题的复杂性和数据的性质来选择最合适的模型。全连接层和卷积层在深度学习中各有其独特的应用和特性。它们可以结合使用,通过卷积层提取特征,然后通过全连接层进行分类或回归,构建有效的深度学习模型。
2024-03-24 21:30:00
4997
原创 深度学习
深度学习是一个涵盖了多种神经网络模型、优化算法、正则化技术以及相关工具和库的广泛领域,它在计算机视觉、自然语言处理、强化学习等多个领域都有着广泛的应用。深度学习是机器学习的一个分支,它主要基于人工神经网络,特别是深层神经网络进行学习和训练。
2024-03-24 11:33:58
637
原创 AI+数值稳定性
一些激活函数,如ReLU(Rectified Linear Unit),可以在一定程度上缓解梯度爆炸的问题,因为它们能够将负值梯度置为零,减少了梯度的传播。选择一些不容易出现梯度消失的激活函数,如ReLU、Leaky ReLU、ELU等,这些激活函数在某些区域具有较大的梯度,能够有效地缓解梯度消失的问题。在反向传播过程中,限制梯度的范围,防止其超出一个合理的范围。合适的参数初始化方法,如Xavier初始化或He初始化,可以使得参数的初始值更接近于合理的范围,减少梯度消失的风险。对于负数输入,输出为0。
2024-03-23 12:53:43
1046
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅