计算机视觉论文合集(光伏电板与多模态)

光伏太阳能板的论文合集

  1. epjournal.csee.org.cn
    题目:《基于YOLOv5的太阳电池表面缺陷检测》
    作者: 彭自然、张颖清、肖伸平
    期刊/年份: 太阳能学报, 2024, 45(6): 368–375
    DOI: 10.19912/j.0254-0096.tynxb.2023-0335
    简介: 本文针对太阳能电池表面缺陷问题,在YOLOv5模型基础上进行了改进,提出了利用跨连接结构强化特征融合的方案,有效提高了模型对缺陷(例如裂纹、碎片)的检测精度。
  2. ope.lightpublishing.cn
    题目:《多尺度YOLOv5的太阳能电池缺陷检测》
    作者: 陈亚芳、廖飞、黄新宇等
    期刊/年份: 光学精密工程, 2023, 31(12): 1804–1815
    DOI: 10.37188/OPE.20233112.1804
    简介: 该论文提出了一种多尺度改进策略,通过在YOLOv5中融入可变形卷积和坐标注意力机制,针对太阳能电池中微小裂纹和碎片缺陷实现了高精度检测,并在实时性方面满足工业要求。
  3. 题目:《基于改进YOLOv5的太阳能电池片表面缺陷检测》
    出处: 可在万方数据平台查阅(期刊《仪表技术与传感器》,2022年5期)
    简介: 针对传统视觉方法检测效率低和缺陷种类受限的问题,论文在YOLOv5输入端引入动态反馈多尺度数据增强,并采用ELU激活函数及专门设计的聚焦损失函数,提升了模型对太阳能电池片多种表面缺陷的检测精度和速度。
  4. arxiv.org
    Title: "Photovoltaic Panel Defect Detection Based on Ghost Convolution with BottleneckCSP and Tiny Target Prediction Head Incorporating YOLOv5"
    Authors: Longlong Li, Zhifeng Wang, Tingting Zhang
    发布日期: 2023年3月(arXiv预印本)
    简介: 该英文论文针对光伏组件表面存在的多种微小缺陷,提出了利用Ghost卷积和BottleneckCSP结构构建专门的微目标检测预测头的改进YOLOv5方法,并在多尺度特征融合上做了优化,显著提升了检测mAP。
  5. 题目:《基于深度学习的太阳能电池板表面缺陷检测及分类》
    出处: 可在中国光学期刊网查阅,发表于《激光与光电子学进展》2025年第62卷第2期(编号0237013)
    简介: 论文针对太阳能电池板的多类缺陷检测,采用轻量化改进的YOLOv5s模型,结合激活函数、特征采样及注意力机制的优化,对缺陷(如裂纹、斑点等)进行了高精度分类与检测,为实际工业检测提供了参考方案。

这些论文均针对太阳能板(或太阳能电池、光伏组件)的缺陷检测问题,利用或改进了YOLOv5模型,在提高检测精度、实时性和模型轻量化等方面提出了有效方案。你可以根据具体的需求(如关注小目标检测、实时性或多缺陷分类)选择阅读相应的文献。

多模态计算机视觉论文

以下是基于YOLOv5的多模态无人机视觉相关研究的推荐论文及其链接,结合了改进算法、多模态特征融合和应用场景的优化:


1. 《UAV-DETR:无人机图像高效端到端物体检测》

  • 主要内容
    该论文提出了一种专为无人机图像设计的实时端到端目标检测模型UAV-DETR,结合了YOLOv5、RT-DETR等模型的优势,通过引入多尺度特征融合与频率增强模块(MSFF-FE)、频率聚焦下采样模块(FD)和语义对齐与校准模块(SAC),显著提升了小目标和遮挡目标的检测性能。
    亮点
    • 融合空间和频域信息,保留小目标细节;
    • 在VisDrone和UAVVaste数据集上验证了实时性和高精度。
      链接
      论文链接 | 博客解析

2. 《基于改进YOLOv5的无人机图像检测算法》

  • 主要内容
    针对无人机图像中小目标检测难题,该研究在YOLOv5中增加上采样层和160×160输出检测层,并通过Mobilenet-V2轻量化网络提升速度。实验表明,改进后的模型在VisDrone数据集上显著提高了小目标检测精度和速度。
    亮点
    • 多尺度特征融合与轻量化设计;
    • 适用于高视角、宽视角的无人机图像分析。
      链接
      论文阅读笔记

3. 《TPH-YOLOv5:基于Transformer预测头的无人机场景目标检测》

  • 主要内容
    通过引入Transformer预测头改进YOLOv5,优化无人机航拍场景中的目标检测性能,解决了复杂背景和小目标检测的难题。模型在无人机捕获的场景数据集上表现优异。
    亮点
    • 结合Transformer与CNN的多模态特征提取;
    • 公开代码和训练权重支持实际部署。
      链接
      会议论文

4. 《yolov5无人机目标检测训练权重与代码》

  • 主要内容
    提供基于YOLOv5s的无人机目标检测训练权重及代码,支持检测空中旋翼无人机,包含完整的训练曲线和模型配置文件,适用于快速部署和二次开发。
    亮点
    • 提供预训练模型和代码;
    • 可直接应用于实际无人机检测任务。
      链接
      资源下载

5. 《基于深度学习的智能化无人机视觉系统设计》

  • 主要内容
    探讨了无人机视觉系统中多模态数据(如RGB图像、红外等)的融合方法,结合YOLOv5进行目标检测与跟踪优化,适用于复杂环境下的无人机自主导航与任务执行。
    亮点
    • 多模态数据融合框架设计;
    • 系统化解决无人机视觉任务中的鲁棒性问题。
      链接
      期刊论文

总结与建议

以上论文覆盖了YOLOv5在无人机视觉中的多模态特征融合、实时检测优化、小目标检测等方向。若需进一步代码实现或数据集,可参考网页5提供的可视化界面源码和网页8的预训练模型。更多细节建议通过链接访问原文或相关资源页面。

多模态计算机视觉论文

  1. 《基于多模态图像输入端像素级融合的伪装目标检测》
    主要内容:
    该论文提出了一种多模态像素级融合方法,用于无人机在复杂环境下的伪装目标检测。通过融合可见光(RGB)和红外图像的多模态数据,结合深度学习方法优化特征提取,解决了传统单模态方法在伪装场景下检测性能不足的问题。模型采用端到端的网络架构,直接在输入端进行多模态数据融合,增强了对隐蔽目标的敏感性和鲁棒性3。

亮点:

多模态输入(RGB+红外)的像素级融合技术;

在复杂背景和伪装场景中显著提升检测精度;

适用于军事侦察和环境监测等应用。

链接:
论文链接

  1. 《基于改进YOLOv5算法的多无人机协同目标检测》
    主要内容:
    该研究探索了多无人机协同任务中的目标检测优化,通过多无人机间的数据共享与融合,结合改进的YOLOv5算法,实现对复杂场景中目标的快速定位与识别。虽然论文未明确描述多模态数据融合,但其多无人机协同框架可能涉及多视角、多传感器数据的整合,属于广义的多模态应用场景5。

亮点:

多无人机协同检测框架设计;

基于YOLOv5的实时性优化;

适用于大范围区域监控与动态目标追踪。

链接:
学位论文

  1. 《DroneVehicle数据集:面向车辆检测的多模态无人机数据集》
    主要内容:
    该研究构建了一个包含可见光(RGB)和红外图像的多模态无人机数据集DroneVehicle,支持车辆检测与计数任务。数据集覆盖昼夜不同时段及复杂天气条件,为多模态融合算法(如结合RGB与热成像数据)提供了基准测试平台。研究还提出了基于YOLOv5的多模态特征融合方法,通过跨模态特征对齐提升检测性能4。

亮点:

首个公开的无人机多模态车辆检测数据集;

支持多传感器数据融合算法验证;

在遮挡和小目标场景下表现优异。

相关引用:
该数据集在文献中被多次提及(如网页4的VisDrone数据集对比分析)49。

  1. 《基于深度学习的智能化无人机视觉系统设计》
    主要内容:
    该论文系统探讨了无人机视觉系统中多模态数据的协同处理框架,包括图像、激光雷达(LiDAR)和惯性导航系统(IMU)数据的融合。研究结合YOLOv5进行目标检测,并引入时空一致性约束优化多模态数据对齐,提升了复杂环境下的检测鲁棒性59。

亮点:

多模态传感器(视觉+LiDAR+IMU)融合方法;

时空一致性约束增强跨模态特征对齐;

适用于自主导航与动态避障任务。

链接:
期刊论文

  1. 《TPH-YOLOv5:基于Transformer预测头的多模态特征增强检测》
    主要内容:
    虽然该论文主要改进YOLOv5的预测头设计,但其引入的Transformer模块能够有效整合多模态特征(如时序视频流与静态图像),增强了对无人机航拍场景中动态目标的捕捉能力。此外,结合CBAM注意力机制,模型在密集目标场景下实现了多模态特征的动态权重分配89。

亮点:

Transformer预测头支持时序与空间特征融合;

动态多模态注意力机制优化特征选择;

在无人机视频流检测中达到实时性与高精度的平衡。

链接:
会议论文

总结与建议
上述论文覆盖了多模态无人机视觉中的像素级融合、多传感器协同、数据集构建及动态特征增强等方向。若需进一步研究:

数据融合方法:可参考论文1和3的像素级与特征级融合技术;

多无人机协同:论文2和4提供了协同检测框架的设计思路;

实时性优化:论文5的Transformer预测头与轻量化设计值得借鉴。

更多细节建议访问原文链接或相关资源页面。

最新多模态计算机视觉论文

以下是基于2024年底至2025年初发表的最新多模态计算机视觉领域论文推荐,涵盖模型架构优化、应用场景扩展及认知能力评估等方向:


1. 跨模态注意力机制与多模态目标跟踪

  • 论文标题:Cross-modulated Attention Transformer for RGBT Tracking(AAAI 2025录用)
  • 研究团队:李成龙教授团队(人工智能学院)
  • 主要内容:提出交叉调制注意力模块(CMA),通过可见光-红外(RGBT)双模态融合,优化跨模态注意力权重一致性,显著提升目标跟踪的鲁棒性和计算效率。实验表明,该方法在极端环境下(如低光照、雾霾)的跟踪精度和速度均优于现有Transformer模型。
  • 应用场景:自动驾驶、机器人导航。

2. 多模态大模型的视觉认知能力评估

  • 论文标题:Visual Cognition in Multimodal Large Language Models(Nature Machine Intelligence, 2025)
  • 研究团队:德国马克斯·普朗克研究所、慕尼黑亥姆霍兹中心等
  • 主要内容:系统评估多模态大语言模型(如GPT-4V、Claude-3)在直觉物理、因果推理和直觉心理学任务中的表现。研究发现,尽管模型在简单视觉任务中表现良好,但在复杂物理交互(如积木塔稳定性预测)和因果推理任务中仍显著落后于人类水平。
  • 意义:揭示了当前多模态模型在认知推理上的局限性,为未来模型设计提供了改进方向。

3. 视觉空间智能基准与认知地图增强

  • 论文标题:李飞飞、谢赛宁团队关于多模态大模型空间推理的研究
  • 核心成果:提出VSI-Bench基准测试集,包含5000+视觉问答对,评估模型在物体配置、空间距离估计和时空任务中的能力。研究发现,71%的错误源于空间推理缺陷,而生成认知地图可将相对距离任务的准确率提升10%。
  • 创新点:通过视频输入和动态空间建模,增强模型对全局空间关系的理解,为具身智能(Embodied AI)奠定基础。

4. 高效视觉语言模型与轻量化部署

  • 论文标题Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model(2024年5月)
  • 研究亮点:设计1B参数的轻量级视觉语言模型,通过LLaVA范式实现高效模态对齐。在经典多模态基准测试中,其性能与四倍规模的模型相当,且适合消费级GPU部署。
  • 应用价值:推动多模态技术在边缘计算和实时场景中的应用。

5. 多模态3D生成与重建技术

  • 论文标题CAT3D: Create Anything in 3D with Multi-View Diffusion Models(2024年5月)
  • 技术突破:基于多视图扩散模型,仅需少量输入图像即可生成高一致性的3D场景,支持从任意视角实时渲染。相比传统方法,CAT3D在生成速度和场景多样性上显著提升,适用于虚拟现实和影视制作。

6. 未对齐多模态数据的显著性检测

  • 论文标题Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network(AAAI 2025录用)
  • 贡献:构建包含20,000对未对齐RGB-T图像的数据集,并提出渐进式相关网络(PCNet),通过语义引导的单应性估计模块增强模态间相关性建模,显著提升显著目标检测的鲁棒性。

扩展阅读与资源

  • 综述类
    • Multi-Modal Knowledge Graph Construction and Application: A Survey(2022):系统总结多模态知识图谱构建与推理技术。
  • 会议信息:关注IEEE DLCV 2025(2025年4月,济南),聚焦多模态信息处理与深度学习前沿。

如需更完整的论文列表或具体细节,可参考上述引用来源的原文链接。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值