长桥夜波-CSDN博客

原创【第四十三周】论文阅读《Planning with the Views via Scene Self-Exploration》

另一个值得注意的发现是：通过IVP训练获得的“空间先验”可以迁移到其他视角相关的任务中。而我的当前工作更关注[请在此处填入你的任务，例如：“在未知环境中导航到指定物体”或“理解物体之间的空间关系”或“从第一人称视角描述场景内容”]，涉及[具体能力差异，例如：“物体级别的语义理解”“路径可达性判断”“多物体交互推理”等]。这与我目前的训练方式不同——我使用的是[请填写你的数据来源，例如：“人工标注的数据集”“仿真环境中采样的专家轨迹”“从互联网爬取的图文对”等]，数据的获取成本和性质都不相同。

2026-06-07 10:13:55 460 1

原创【第四十二周】VLN

上周我主要做了两件事：一是调研EPM的工作环境和算力要求，二是因为EPM代码没公开，我找了它引用的SayCan论文作为替代方案。

2026-05-31 15:50:04 176

原创【第四十一周】VLN

这周主要细看《PLANNING WITH AN EMBODIED LEARNABLE MEMORY》，以下简称EPM，EPM这篇论文主要是一个可学习记忆，直接输出文本化的环境表示（物体列表、坐标、描述），大语言模型可以直接读懂这个记忆，无需中间查询，VLM能够对记忆进行ADD、UPDATE、Remove、No update 四个操作，我的想法主要是让EPM作为一个高层的规划器，通过用户输入的自然语言指令（比如去客厅沙发旁边的茶几上拿遥控器），EPM可解析指令中的目标物体和空间约束，生成子任务序列（先导航到客

2026-05-24 10:31:42 339

原创【第四十周】VLN

在过去的一周中，我围绕老师推荐的几篇文献，重点研读了与三维语义建图、可学习记忆机制、语义导航决策相关的核心论文，包括但不限于：M3-Spatial（导航Demo）、CUS-GS（紧凑语义3D高斯地图）、EPM（可学习文本记忆模块）、GSMem（基于VLM的语义导航与空间回忆）等。在此基础上，我结合自己的理解，提出了若干初步的研究思路与技术整合方案，试图在现有工作的基础上，探索更具动态适应能力、更高效、更智能的机器人语义导航系统。

2026-05-17 19:44:17 379

原创【第三十九周】情感分析文献综述

社交媒体已成为公众情感表达与舆论形成的关键场所，但数据碎片化、复杂情绪以及多模态特性为情感与行为挖掘带来挑战。本文系统梳理了社交媒体情感挖掘的理论、方法、应用与批判。研究发现，该领域经历了从基于基本情绪理论的简单分类，到融合社交语境与深度学习模型，再到当前以大语言模型驱动、面向真实世界复杂语境的模式转变。以MindVote为代表的基准研究证实，基于真实社交媒体数据训练的模型优于传统结构化调查微调模型。然而，技术演进也伴随着平台资本主义下情感商品化、算法操控及隐私泄露等严峻的伦理风险。

2026-05-10 10:23:52 411

原创【第三十八周】VLN文献阅读

第二层为推理层，研究人员称之为认识大脑，这一层就是真正的决策者，它基于上一层的输入，一边做场景推理，一边给后面的动作层发指令，是整个模型的中枢系统，推理层的大模型基座是Qwen3-4B，这是阿里通义千问的最新大模型系列，4B 表示它的参数量约为 40 亿，它的语言理解、常识推理能力足够强，能处理复杂的导航逻辑，并且4B 的参数量足够小，可以部署在机器人的嵌入式设备（比如Jetson Orin）上，满足实时导航的低延迟要求，不会像 7B/14B 模型那样跑不动。对于模糊指令、大区域场景，动作容易出错；

2026-05-03 18:46:31 365

原创【第三十七周】VLN文献阅读

在模型训练阶段，采用了流查询令牌，是一个辅助任务工具，作用是让模型学会预测未来，从而更懂环境的动态变化，它不是推理时必须的，推理时会被直接删除掉，不会拖慢机器人的运行速度，具体操作是训练时加入可学习令牌<q_2D>、<q_3D>，这两个令牌是模型里的特殊占位符，用来对2D语义和3D空间提问和预测，它们会回看前面所有帧的2D/3D特征，即反向查询上下文，然后预测出下一个时刻的2D/3D隐特征（隐特征既不是画面里的像素也不是深度图，而是预测画面在模型内部的抽象表示，不生成图像，更节省内存资源且不容易过拟合）。

2026-04-26 10:17:45 432

原创【第三十六周】VLN文献阅读

该机制的核心流程是推理驱动感知闭环，首先是生成查询与聚焦区域，输出视觉查询和聚焦区域，作用是避免重复查询某个信息，然后是细粒度感知，VLM只在裁剪后的聚焦区域里识别，输出物体的颜色、纹理、空间关系等细粒度文本描述，然后是信息充足性评估，让智能体自己判断既有信息够不够，若不够则从第一步开始，若够就结束感知循环，最后是评估语义价值和存入记忆库，将所有感知的信息，给新发现的可行路径点打分，分越高越相关，将上面这些信息整合未多模态上下文，存入记忆库。最后是推理策略僵化，无法针对性激发MLLM的能力。

2026-04-19 10:05:01 355

原创【第三十五周】社交媒体挖掘文献阅读

这周主要是阅读一些社交媒体挖掘中情感分析的文献。

2026-04-12 09:52:56 339

原创【第三十三周】具身智能体领域的不足的解决方法

这周主要的是根据上周发现的不足，检索一些最近的文献，看看有没有解决问题的方法。

2026-03-29 10:04:37 352

原创【第三十二周】具身智能体领域的不足和解决方法

摘要：本文总结了具身智能体领域的六个关键问题及解决思路：1) 数据迁移问题可通过模块迁移或经验池共享解决；2) 感知-导航-交互割裂问题可采用统一架构、信息闭环或协同优化；3) 动态环境感知可通过动态语义地图、物体状态机或时序跟踪实现；4) 模糊指令处理结合LLM/VLM多模态询问；5) 记忆优化采用过期机制、任务生命周期或重要性加权；6) 数据集泛化需混合多场景训练。这些方案通过迁移学习、协同优化和动态更新机制，提升了智能体的适应性和效率。

2026-03-22 10:31:54 411

原创【第三十一周】具身智能体领域总结

目前这些文章的研究领域是属于具身智能领域，所谓具身智能，在我看来，就是让智能体脱离抽象分析的层面，将其寄托于一个“身体”上，机器人通过这个身体，就像人类一样，自主感知、理解世界，并且能够对于不同任务要求，能够自主导航、自主识别、自主生成与物体交互的动作序列，与现实世界进行直接的接触。这些论文分为三个研究方向：分别是智能体3D场景感知、智能体自主导航策略、手-物交互与动作生成，下面将分别阐述这三个方向的具体内容。

2026-03-15 11:10:47 460

原创【第三十周】文献阅读

本周主要学习了两篇前沿论文，分别涉及增强现实技术在技能传授中的应用以及机器人零样本目标导航问题。第一篇论文介绍了InstruMentAR系统，它允许非专业用户通过穿戴式设备记录手指压力与手势，自动化生成数字仪器的AR操作教程，并能对新手用户提供实时的视觉-触觉反馈与错误纠正，从而大幅降低AR教程的制作门槛。

2026-02-15 09:28:40 849

原创【第二十九】文献阅读

这篇文献的主要研究目的是如何让机器人通过一句开放式的语言指令，在从未见过的复杂情况自主识别并导航到目标旁研究人员采用MANO模型表示手部，该模型由手部形状参数和手腕姿态参数构成：θ为手指旋转、β为形状特征，旋转r和平移t为手腕姿态参数给定任务描述T、视觉预测Vk（包含RGB帧Ik和深度帧Dk）和手部参数hk，目标预测是未来l帧的手部姿态。

2026-02-08 10:04:53 866

原创【第二十八周】文献综述

本周重点学习了两篇具身智能领域的学术论文。第一篇《Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents》提出了CAPEAM框架，通过上下文感知规划和环境感知记忆模块，有效解决了智能体在执行复杂指令时易受无关对象干扰和遗忘物体状态的问题。

2026-01-31 10:52:46 839

原创【第二十七周】Pytorch学习笔记

本周学习围绕神经网络的基本构建模块与完整的机器学习管道展开。通过配送时间预测的具体案例，理解了单个神经元如何作为线性方程模拟数据规律，并通过调整权重和偏置来最小化预测误差。进一步地，系统掌握了机器学习项目的六个关键阶段：数据摄取、数据准备、模型构建、训练、评估与调试、部署，为后续动手实现模型奠定了理论基础。本周主要学习了神经元的工作机制及其在简单预测问题中的应用，并建立起从数据到部署的完整机器学习流程认知。

2026-01-25 11:11:54 612

原创【第二十六周】手势识别综述（2）

手势与动作识别是人机交互的核心技术，近年来在VR/AR、智能家居等领域应用广泛。本文梳理了该领域的发展脉络，从数据集的演进到核心方法的迭代，再到前沿趋势的融合。早期的研究依赖特定硬件与有限数据集，近年来随着深度学习与多模态融合技术的发展，研究者逐渐转向基于视觉的高效、轻量化模型。目前，该领域仍面临泛化能力、实时性、数据依赖等挑战，未来有望通过自监督学习、多任务协同与轻量化设计实现进一步突破。本文旨在为后续研究提供清晰的背景梳理与发展方向参考。

2026-01-18 18:06:11 832

原创【第二十五周】机器学习笔记

本周学习了推荐系统中的均值归一化方法及其重要性，该方法通过减去每部电影的平均评分来提升算法效率，并为未评分的新用户提供更合理的初始预测。同时，初步接触了使用 TensorFlow 实现协同过滤算法，了解了如何利用其自动求导功能简化模型优化过程，减少手动计算导数的工作量。一是理解了均值归一化的作用，它通过调整评分数据来加速算法运行，并让新用户的预测更贴近电影的平均评分，而非默认零值。二是学习了用 TensorFlow 实现协同过滤的基本方法，体会到框架自动求导的优势，可以更专注于模型构建而减少繁琐的数学计算。

2026-01-04 12:06:46 1098

原创【第二十六周】文献综述-第一人称下的手势识别

数据集在不同机器上储存不同比如如果代码是这样的那么数据集只能在我的机器中使用，教程中是这样的那么我们可以很方便的在不同的机器上调用这些数据。

2026-01-03 12:18:08 909

原创【第二十四周】文献阅读-第一人称下的手势识别（1）

摘要本文介绍了Ego-Exo4D数据集中的手势识别和熟练度评估任务。手势识别任务需要从第一人称视角预测手部的三维坐标，而熟练度评估包含两种变体：评估操作者的整体技能水平（示范者熟练度）和评估具体操作的执行质量（示范熟练度）。重点讲解了眼视数据的处理流程，包括如何将三维眼视方向投影到二维图像平面，并提供了Project Aria工具链的基本使用方法。文章还详细说明了数据集加载、设备校准和传感器数据获取等技术细节，为相关研究提供了实用指导。 Abstract This paper introduces han

2025-12-20 15:47:31 839

原创【第二十三周】统计学习复习笔记

本周系统整理了机器学习的基础知识，涵盖了监督学习、无监督学习、模型评估和常用算法等多个核心主题。通过对比学习，我清晰地理解了监督学习与无监督学习的本质区别，掌握了过拟合与欠拟合的识别方法及解决方案。重点梳理了线性回归、逻辑回归、K-means聚类和异常检测等算法的原理和应用，并对分类问题的评估指标进行了总结归纳。机器学习是计算机利用计算的手段，通过经验（一般来说都是以数据为载体）来改善自身系统性能的学科传统的编程模式：输入数据 + 明确的规则（程序）= 输出结果。

2025-12-14 16:04:40 769

原创机器学习日报23

今天系统学习了异常检测算法的构建和评估方法。通过高斯分布对每个特征进行建模，将各特征概率相乘得到联合概率p(x)，当p(x)小于阈值ε时判定为异常。在算法评估方面，虽然训练使用无标签数据，但可以通过少量带标签的异常样本构建验证集和测试集，使用精确率、召回率和F1分数来评估性能并调整参数ε。今天的学习让我掌握了完整的异常检测系统构建流程。算法的核心思想很巧妙——通过高斯分布量化每个特征的正常范围，任何特征异常都会导致联合概率p(x)降低。

2025-11-28 12:20:08 909

原创机器学习日报23

今天学习了高斯分布（正态分布）在异常检测中的应用。通过回顾高斯分布的基本概念，我理解了均值μ决定分布中心位置，标准差σ控制曲线宽度的特性。在异常检测中，我们利用高斯分布建立概率模型，计算新样本的概率密度，当p(x)低于阈值ε时判定为异常。这种方法能够有效识别与正常模式显著偏离的数据点。今天的学习让我掌握了基于高斯分布的异常检测原理。通过具体的图示和公式，我清晰理解了μ和σ如何影响分布形状，以及如何从训练数据中估计这两个参数。

2025-11-27 20:42:41 542

原创机器学习日报22

今天学习了K-means聚类数选择的方法和异常检测算法的原理。对于K值选择，理解了肘部法则的局限性以及更实用的评估方法——根据下游任务表现来选择。异常检测通过密度估计建立概率模型，识别与正常模式显著偏离的异常点。这两个无监督学习技术在实际应用中都需要结合具体场景做出合理决策。今天的学习让我对无监督学习的实际应用有了更深刻的认识。K-means的聚类数选择不再依赖于简单的肘部法则，而是需要结合实际业务需求来权衡，就像T恤尺寸的例子，不是聚类越多越好，而要考虑成本效益。

2025-11-26 22:05:02 1074

原创机器学习日报21

今天学习了K-means算法初始化和聚类数选择的关键问题。在初始化方面，我理解了随机选择k个训练样本作为初始聚类中心的方法，以及通过多次随机初始化来避免局部最优解的技巧。对于聚类数的选择，认识到这往往没有标准答案，需要根据数据特性和应用需求来判断。通过可视化不同k值下的聚类效果，我明白了肘部法则等选择聚类数的实用方法。今天的学习让我对K-means算法的实际应用有了更深入的理解。初始化不再是随便选几个点那么简单，而是要通过多次尝试来找到更好的聚类结果，这就像做实验时要重复多次取平均值一样重要。

2025-11-25 11:42:05 839

原创机器学习日报20

今天深入学习了K-means算法的数学原理和优化过程。通过分析成本函数的构成，我理解了算法如何通过交替优化聚类分配和中心位置来最小化平方距离。具体来说，第一步是将每个点分配到最近的聚类中心，第二步是重新计算聚类中心为所属点的平均值。这种迭代过程能保证成本函数持续下降直至收敛，让我对算法的内在机制有了更清晰的认识。今天的学习让我真正理解了K-means算法背后的数学原理。之前只知道算法步骤，现在明白了每个步骤都是在优化那个平方距离的成本函数。

2025-11-24 15:59:30 646

原创【第二十一周】文献阅读笔记10

本周的学习让我对机器学习在医疗领域的应用有了系统性的认识。通过深入研读这篇关于老年人死亡率预测的前沿研究，我完整地理解了从数据收集、预处理到模型建立和结果解释的完整科研流程。研究团队创新性地将传统统计方法与现代机器学习技术相结合，使用Cox回归和六种机器学习算法分析1974名老年人的综合评估数据。最令我印象深刻的是，研究发现功能状态和炎症指标比实际年龄更能准确预测死亡风险，这颠覆了我对衰老评估的传统认知。人工神经网络达到0.97的AUC值更是让我看到了深度学习在医疗预测中的巨大潜力。

2025-11-16 13:50:40 704

原创计算机网络复习日报19

今天深入学习了物理层的基础知识，包括接口特性、数据通信模型和编码方式。物理层接口涉及机械、电气、功能和过程四个特性。数据通信系统模型展示了信息从源点到终点的完整转换过程，理解了信号如何在不同形式间转换。重点学习了四种编码方式：不归零制、归零制、曼彻斯特编码和差分曼彻斯特编码，每种编码都有其独特的信号表示方法和同步特性。今天的学习让我对物理层的工作原理有了更具体的认识。数据通信系统模型就像信息的"变形记"，从我们看得懂的文字变成电信号，再变成比特流传输，最后又变回文字，这个过程很神奇。

2025-11-15 16:43:48 947

原创计算机网络复习日报18

今天系统学习了计算机网络的基础知识，包括网络与互联网的区别、组成结构、交换方式和体系结构。互联网由边缘部分（用户直接使用的主机）和核心部分（提供连通性的路由器网络）组成。重点学习了三种交换方式：电路交换（独占资源）、报文交换（整体传输）和分组交换（分片传输，效率最高）。还了解了计算机网络的分类标准、性能指标（如带宽、吞吐量、时延）以及OSI和TCP/IP参考模型的层次结构。定义：由若干节点和连接这些节点的链路组成。节点可以是计算机、集线器、交换机或路由器等今天的学习让我对计算机网络有了整体框架的认识。

2025-11-14 16:04:42 766

原创机器学习日报17

今天学习了聚类这一无监督学习算法，特别是k-means算法的原理和步骤。聚类与有监督学习不同，它没有标签数据，而是自动发现数据中的内在结构。k-means通过随机初始化簇中心，然后交替执行"分配点到最近簇"和"重新计算簇中心"两个步骤，直到算法收敛。这种算法在新闻分类、DNA分析和天文研究等领域都有广泛应用。聚类算法会查看多个数据点，并自动找到相关或相似的数据点，先让我们对比一下聚类，有个无监督算法，与之前的在有监督学习中的二元分类相比，给定一个包含特征x1和x2的数据集。

2025-11-12 16:00:28 1214

原创机器学习日报16

今天学习了XGBoost算法和决策树与神经网络的比较。XGBoost通过提升方法专注于之前分类错误的样本，比传统决策树集成更高效。它的开源实现内置正则化防止过拟合，代码使用简单。在模型选择方面，决策树适合表格数据且训练快速，而神经网络更适合非结构化数据并支持迁移学习，但训练时间较长。今天的学习让我对XGBoost有了深入理解，它通过类似"刻意练习"的方式重点关注之前分类错误的样本，这种提升策略很聪明。XGBoost代码实现也很简洁，几行代码就能完成分类或回归任务。

2025-11-11 11:26:28 719

原创文献分享日报15

第五代专用（5G）网络已成为工业自动化、医疗保健和智慧城市等关键任务领域超可靠、低延迟连接的基石。与 4G 或 Wi-Fi 等传统技术相比，它们具有明显的优势，包括增强的服务连续性、更高的可靠性和可定制的安全控制。然而，这些好处也带来了新的安全挑战，特别是在数据和服务的机密性、完整性和可用性方面。本文回顾了专用 5G 网络中的安全漏洞。该审查追求四个目标：（i）识别和分类关键漏洞，（ii）分析破坏核心安全原则的威胁，（iii）评估文献中提出的缓解策略，以及（iv）概述需要进一步调查的差距。

2025-11-10 15:18:15 1030

原创【第二十一周】机器学习周报

这周系统学习了决策树这一重要的机器学习算法。通过猫分类的例子，我理解了决策树如何通过一系列特征判断来做出分类决策，包括根节点、决策节点和叶节点的概念。学习了构建决策树的关键步骤：选择分裂特征时使用信息增益最大化原则，通过计算熵减少量来确定最佳特征；掌握了处理多值特征的独热编码技术和连续值特征的阈值选择方法。最后还了解了决策树在回归问题中的应用，使用方差减少代替信息增益来构建回归树。这周对决策树的深入学习让我掌握了这种直观而强大的机器学习方法。

2025-11-09 14:59:56 864

原创机器学习日报14

今天学习了决策树集成方法，特别是随机森林算法。单个决策树对数据微小变化很敏感，通过构建多个决策树并让它们投票可以提高预测的稳定性和准确性。放回抽样技术是构建树集成的关键，它能创建多个相似但不同的训练集。随机森林通过有放回抽样生成B个训练集，在每个节点随机选择特征子集进行分裂，最终通过投票得出预测结果。今天的学习让我明白了为什么单个决策树不够稳健，以及如何通过集成方法解决这个问题。随机森林的核心思想很巧妙——通过有放回抽样创造多个略有差异的训练集，然后在每个节点随机选择特征，这样每棵树都变得独特。

2025-11-07 19:42:10 689

原创机器学习日报13

今天学习了决策树处理不同类型特征的方法和回归树的应用。对于多值分类特征，使用独热编码将其转换为多个二元特征；对于连续值特征，通过寻找最佳分割阈值来划分数据。还了解了如何将决策树应用于回归问题，使用方差减少而不是信息增益来选择分割特征，并在叶节点预测数值平均值。今天的学习扩展了我对决策树应用范围的认识。独热编码很巧妙，能把一个多值特征变成几个二元特征，这样决策树和神经网络都能处理。连续特征的处理也很有启发性，通过尝试不同阈值找到最佳分割点。

2025-11-06 17:53:54 1027

原创日报12-文献阅读

首先做了敏感性分析，研究人员换用另外一个处理缺失值的方法，即多重插补重跑模型，发现结果与主分析基本一致，然后对结果进行整合，得出结论：无论是传统的cox回归，还是各种复杂的ML模型，甚至包括shap分析，都共同指向了功能状态、体重减轻、步速和炎症这几个核心指标，cox提供了临床可解释的风险比，而ML模型，尤其是ANN提供了极高的预测精度，两者结合，既回答了哪些因素重要（cox），也回答了我们能预测多准（ML），下图展示不同ML模型与敏感度和错误率的关系。它提供了具有明确临床意义的、可解释的统计结果。

2025-11-05 19:08:00 954

空空如也

空空如也