- 博客(17)
- 收藏
- 关注
原创 论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用
随着自动驾驶技术的快速发展,确保其安全性和可解释性已成为一个关键挑战。本研究提出了一种创新的端到端自动驾驶框架DriveLLM-V,该框架集成了前沿的大语言模型(LLM)和视觉模态模型,以增强系统在复杂动态环境中的性能和可解释性。DriveLLM-V引入了基于车辆意图的控制信号(VICS),该框架将传统的控制信号转换为自然语言描述,显著提高了系统的行为可解释性和逻辑推理能力。
2025-11-15 15:45:29
1112
1
原创 论文阅读12——基于学习的具有扩散行为的人流量预测方法
预测和估计公共场所的行人移动使运营商能够预测人们将去哪里以及在任何特定时间将有多少人在场。这些信息对于防止过度拥挤和提高疏散效率至关重要。现有的研究主要属于描述性或观察性领域,重点是通过实验或基于物理的微观模拟模型评估、探索或预测疏散行为(Haghani,2020;Helbing和Molnar,1995;然而,这些模型通常不是为了在操作期间动态更新而设计的,从而限制了它们对实时人群管理的适用性。因此,它们不足以预测和减轻快速变化的场景中与人群相关的风险。
2025-10-24 14:28:43
946
原创 论文阅读11——V2V-LLM:采用多模式大型语言模型的车对车协同自动驾驶
由于深度学习算法、计算基础设施的发展以及大规模现实世界驾驶数据集和基准的发布,自动驾驶技术取得了显着进步[3,13,38]。然而,自动驾驶汽车的感知和规划系统在日常操作中,主要依靠当地的LiDAR传感器和相机来检测附近的显著物体并规划未来的轨迹。当传感器被附近的大型物体遮挡时,这种方法可能会遇到安全关键问题。在这种情况下,自动驾驶车辆无法准确地检测到附近所有值得注意的物体,使得后续的规划结果不可靠。
2025-04-06 15:45:48
1173
3
原创 论文阅读10——解开碳排放与碳足迹之间的关系:文献回顾和可持续交通框架
交通脱碳在全球范围内引起了广泛关注,有两个概念发挥着至关重要的作用:交通碳排放(TCE)和交通碳足迹(TCF)。然而,它们在相关文献中的重叠定义和混合使用造成了歧义和误解,迫切需要以更加内省的方式澄清它们之间的微妙关系。因此,我们进行了深入的文献回顾,调查它们的本质共性和差异,重点关注两个方面:从研究趋势、焦点和集群方面了解科学进步,以捕捉其内涵和用例;诊断它们是如何内在估计的以及如何减少滥用。因此,我们开发了一个集成的生命周期分析框架,将TCE和TCF在跨学科环境中联系起来。
2025-04-02 21:30:44
1392
2
原创 论文阅读9——更严格的汽车排放标准对气候、健康、农业和经济的影响
机动车产生的非二氧化碳空气污染物历来受到控制,以保护空气质量和健康,但也会影响气候。我们利用全球成分-气候模型,研究了 2015 年在许多发展中国家采用严格的欧洲道路车辆排放标准对这些污染物的综合影响。
2025-04-02 16:56:09
1478
1
原创 论文阅读8——大数据赋能交通信号控制可减少城市碳排放
城市拥堵是一项紧迫的挑战,不仅增加了排放,还影响了交通效率。现在,大数据收集和处理技术的进步使自适应交通信号成为可能,为缓解拥堵提供了一种前景广阔的策略。在我们对中国 100 个最拥堵城市的研究中,大数据支持的自适应交通信号将高峰时段的出行时间减少了 11%,非高峰时段减少了 8%,预计每年可减少 3173 万吨二氧化碳。尽管每年的实施成本为 14.8 亿美元,但包括二氧化碳减排、时间节省和燃油效率在内的社会效益却高达 318.2 亿美元。
2025-04-02 10:24:14
1315
1
原创 论文阅读7——DriveLLM: 利用大型语言模型为实现完全自动驾驶绘制路线图
人类驾驶员本能地利用常识推理来预测不熟悉场景中的危险并了解其他道路使用者的意图。然而,自动驾驶的传统决策系统完全缺乏这种基本能力。作为回应,本文提出了DriveLLM,这是一个将大型语言模型(LLM)与现有自动驾驶堆栈集成的决策框架。这种集成允许在决策中进行常识性推理。DriveLLM还具有独特的网络物理反馈系统,使其能够从错误中学习和改进。在现实世界的案例研究中,所提出的框架在复杂场景(包括困难的边缘情况)中优于传统的决策方法。此外,我们提出了一种新颖的方法,允许决策系统与人类输入交互,同时防止对抗攻击。
2025-03-27 21:01:08
1225
1
原创 Overleaf-Latex-Elsevier-图、表、参考文献标题及引用、伪代码写法(绝对详细直观且易懂)
overleaf爱思唯尔模板踩过的一些坑以及解决办法
2024-12-13 20:03:21
5314
1
原创 (图文详解)Ubuntu 20.04安装anaconda3&修改用户名&conda:命令未找到问题解决
(图文详解)Ubuntu 20.04安装anaconda3&修改用户名&conda:命令未找到问题解决,亲测有效
2024-10-27 10:32:25
1601
原创 论文阅读6——VIT:Vision Transformer(包括ViT代码复现)
虽然Transformer架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合应用,要么用于替换卷积网络的某些组件,同时保持其整体结构。我们表明,这种对CNN的依赖是没有必要的,并且直接应用于图像补丁序列的纯Transformer可以在图像分类任务中表现得非常好。
2024-10-16 11:13:27
3961
3
原创 Python实践——实现视频.mp4转图片.jpg(可成功实现)
输出图片文件夹最好新建在C盘,否则容易出现无法写入等问题,导致无法成功获取每帧图片。指令:pip install opencv-python。视频路径可以存在C盘或者D盘。
2024-10-13 09:55:57
790
原创 论文阅读5——CORA:采用CLIP进行开放式词汇检测,结合区域提示和锚点预匹配
开放词汇检测(OVD)是一种对象检测任务,旨在从检测器训练的基本类别之外的新类别中检测对象。最近的OVD方法依赖于大规模视觉语言预训练模型,如CLIP,来识别新对象。我们确定了将这些模型纳入探测器训练时需要解决的两个核心障碍:(1)将在整个图像上训练的VL模型应用于区域识别任务时发生的分布失配;(2) 对看不见的类的对象进行本地化的困难。为了克服这些障碍,我们提出了CORA,这是一种DETR风格的框架,通过区域提示和锚点预匹配将CLIP应用于开放词汇检测。
2024-10-09 09:27:38
2097
3
原创 论文阅读4——RegionCLIP:基于区域的语言图像预训练
使用图像-文本对的对比语言-图像预训练(CLIP)在zero-shot和迁移学习设置下的图像分类上都取得了令人印象深刻的结果。然而,我们表明,由于主要的领域转移,直接应用这些模型来识别图像区域进行对象检测会导致不满意的性能:CLIP被训练为将图像作为一个整体与文本描述相匹配,而没有捕获图像区域和文本范围之间的细粒度对齐。为了缓解这一问题,我们提出了一种名为RegionCLIP的新方法,该方法大大扩展了CLIP来学习区域级视觉表示,从而实现图像区域和文本概念之间的细粒度对齐。
2024-10-08 10:32:04
1694
1
原创 论文阅读3——OVD:使用字幕进行开放词汇对象检测
尽管深度神经网络在目标检测中具有显著的准确性,但由于监督要求,它们的训练和扩展成本很高。特别是,学习更多的对象类别通常需要按比例增加边界框注释。弱监督和零样本学习技术已被探索用于在较少监督的情况下将目标探测器扩展到更多类别,但它们并不像监督模型那样成功和广泛采用。在本文中,我们提出了一个新的对象检测问题的公式,即开放词汇对象检测,它比弱监督和零样本方法更通用、更实用、更有效。我们提出了一种新方法,使用边界框注释对有限的一组对象类别以及以显著较低的成本覆盖更多种类对象的图像字幕对来训练对象检测器。
2024-10-04 15:34:51
1333
1
原创 论文阅读2——GiT:通过通用语言接口实现通用视觉转换
本文提出了一个简单但有效的框架,称为GiT,仅使用普通ViT即可同时适用于各种视觉任务。受大型语言模型(LLM)中广泛使用的多层Transformer架构(如GPT)的普遍性的启发,我们寻求扩大其范围,作为强大的视觉基础模型(VFM)。然而,与语言建模不同,视觉任务通常需要特定的模块,例如用于检测的边界框头和用于分割的像素解码器,这极大地阻碍了强大的多层变换器在视觉领域的应用。
2024-09-26 17:33:10
1099
1
原创 论文阅读1——DiffYOLO:基于YOLO和扩散模型的抗噪目标检测
DiffYOLO结合了YOLO的实时高效检测和DDPM的特征生成能力,提升了在复杂场景中的检测精度和对多尺度目标的适应性,同时在面对噪声和模糊等问题时具有更好的鲁棒性。
2024-09-25 16:37:30
2018
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅