光伏太阳能板的论文合集
- epjournal.csee.org.cn
题目:《基于YOLOv5的太阳电池表面缺陷检测》
作者: 彭自然、张颖清、肖伸平
期刊/年份: 太阳能学报, 2024, 45(6): 368–375
DOI: 10.19912/j.0254-0096.tynxb.2023-0335
简介: 本文针对太阳能电池表面缺陷问题,在YOLOv5模型基础上进行了改进,提出了利用跨连接结构强化特征融合的方案,有效提高了模型对缺陷(例如裂纹、碎片)的检测精度。 - ope.lightpublishing.cn
题目:《多尺度YOLOv5的太阳能电池缺陷检测》
作者: 陈亚芳、廖飞、黄新宇等
期刊/年份: 光学精密工程, 2023, 31(12): 1804–1815
DOI: 10.37188/OPE.20233112.1804
简介: 该论文提出了一种多尺度改进策略,通过在YOLOv5中融入可变形卷积和坐标注意力机制,针对太阳能电池中微小裂纹和碎片缺陷实现了高精度检测,并在实时性方面满足工业要求。 - 题目:《基于改进YOLOv5的太阳能电池片表面缺陷检测》
出处: 可在万方数据平台查阅(期刊《仪表技术与传感器》,2022年5期)
简介: 针对传统视觉方法检测效率低和缺陷种类受限的问题,论文在YOLOv5输入端引入动态反馈多尺度数据增强,并采用ELU激活函数及专门设计的聚焦损失函数,提升了模型对太阳能电池片多种表面缺陷的检测精度和速度。 - arxiv.org
Title: "Photovoltaic Panel Defect Detection Based on Ghost Convolution with BottleneckCSP and Tiny Target Prediction Head Incorporating YOLOv5"
Authors: Longlong Li, Zhifeng Wang, Tingting Zhang
发布日期: 2023年3月(arXiv预印本)
简介: 该英文论文针对光伏组件表面存在的多种微小缺陷,提出了利用Ghost卷积和BottleneckCSP结构构建专门的微目标检测预测头的改进YOLOv5方法,并在多尺度特征融合上做了优化,显著提升了检测mAP。 - 题目:《基于深度学习的太阳能电池板表面缺陷检测及分类》
出处: 可在中国光学期刊网查阅,发表于《激光与光电子学进展》2025年第62卷第2期(编号0237013)
简介: 论文针对太阳能电池板的多类缺陷检测,采用轻量化改进的YOLOv5s模型,结合激活函数、特征采样及注意力机制的优化,对缺陷(如裂纹、斑点等)进行了高精度分类与检测,为实际工业检测提供了参考方案。
这些论文均针对太阳能板(或太阳能电池、光伏组件)的缺陷检测问题,利用或改进了YOLOv5模型,在提高检测精度、实时性和模型轻量化等方面提出了有效方案。你可以根据具体的需求(如关注小目标检测、实时性或多缺陷分类)选择阅读相应的文献。
多模态计算机视觉论文
以下是基于YOLOv5的多模态无人机视觉相关研究的推荐论文及其链接,结合了改进算法、多模态特征融合和应用场景的优化:
1. 《UAV-DETR:无人机图像高效端到端物体检测》
- 主要内容:
该论文提出了一种专为无人机图像设计的实时端到端目标检测模型UAV-DETR,结合了YOLOv5、RT-DETR等模型的优势,通过引入多尺度特征融合与频率增强模块(MSFF-FE)、频率聚焦下采样模块(FD)和语义对齐与校准模块(SAC),显著提升了小目标和遮挡目标的检测性能。
亮点:
2. 《基于改进YOLOv5的无人机图像检测算法》
- 主要内容:
针对无人机图像中小目标检测难题,该研究在YOLOv5中增加上采样层和160×160输出检测层,并通过Mobilenet-V2轻量化网络提升速度。实验表明,改进后的模型在VisDrone数据集上显著提高了小目标检测精度和速度。
亮点:
-
- 多尺度特征融合与轻量化设计;
- 适用于高视角、宽视角的无人机图像分析。
链接:
论文阅读笔记
3. 《TPH-YOLOv5:基于Transformer预测头的无人机场景目标检测》
- 主要内容:
通过引入Transformer预测头改进YOLOv5,优化无人机航拍场景中的目标检测性能,解决了复杂背景和小目标检测的难题。模型在无人机捕获的场景数据集上表现优异。
亮点:
-
- 结合Transformer与CNN的多模态特征提取;
- 公开代码和训练权重支持实际部署。
链接:
会议论文
4. 《yolov5无人机目标检测训练权重与代码》
- 主要内容:
提供基于YOLOv5s的无人机目标检测训练权重及代码,支持检测空中旋翼无人机,包含完整的训练曲线和模型配置文件,适用于快速部署和二次开发。
亮点:
-
- 提供预训练模型和代码;
- 可直接应用于实际无人机检测任务。
链接:
资源下载
5. 《基于深度学习的智能化无人机视觉系统设计》
- 主要内容:
探讨了无人机视觉系统中多模态数据(如RGB图像、红外等)的融合方法,结合YOLOv5进行目标检测与跟踪优化,适用于复杂环境下的无人机自主导航与任务执行。
亮点:
-
- 多模态数据融合框架设计;
- 系统化解决无人机视觉任务中的鲁棒性问题。
链接:
期刊论文
总结与建议
以上论文覆盖了YOLOv5在无人机视觉中的多模态特征融合、实时检测优化、小目标检测等方向。若需进一步代码实现或数据集,可参考网页5提供的可视化界面源码和网页8的预训练模型。更多细节建议通过链接访问原文或相关资源页面。
多模态计算机视觉论文
- 《基于多模态图像输入端像素级融合的伪装目标检测》
主要内容:
该论文提出了一种多模态像素级融合方法,用于无人机在复杂环境下的伪装目标检测。通过融合可见光(RGB)和红外图像的多模态数据,结合深度学习方法优化特征提取,解决了传统单模态方法在伪装场景下检测性能不足的问题。模型采用端到端的网络架构,直接在输入端进行多模态数据融合,增强了对隐蔽目标的敏感性和鲁棒性3。
亮点:
多模态输入(RGB+红外)的像素级融合技术;
在复杂背景和伪装场景中显著提升检测精度;
适用于军事侦察和环境监测等应用。
链接:
论文链接
- 《基于改进YOLOv5算法的多无人机协同目标检测》
主要内容:
该研究探索了多无人机协同任务中的目标检测优化,通过多无人机间的数据共享与融合,结合改进的YOLOv5算法,实现对复杂场景中目标的快速定位与识别。虽然论文未明确描述多模态数据融合,但其多无人机协同框架可能涉及多视角、多传感器数据的整合,属于广义的多模态应用场景5。
亮点:
多无人机协同检测框架设计;
基于YOLOv5的实时性优化;
适用于大范围区域监控与动态目标追踪。
链接:
学位论文
- 《DroneVehicle数据集:面向车辆检测的多模态无人机数据集》
主要内容:
该研究构建了一个包含可见光(RGB)和红外图像的多模态无人机数据集DroneVehicle,支持车辆检测与计数任务。数据集覆盖昼夜不同时段及复杂天气条件,为多模态融合算法(如结合RGB与热成像数据)提供了基准测试平台。研究还提出了基于YOLOv5的多模态特征融合方法,通过跨模态特征对齐提升检测性能4。
亮点:
首个公开的无人机多模态车辆检测数据集;
支持多传感器数据融合算法验证;
在遮挡和小目标场景下表现优异。
相关引用:
该数据集在文献中被多次提及(如网页4的VisDrone数据集对比分析)49。
- 《基于深度学习的智能化无人机视觉系统设计》
主要内容:
该论文系统探讨了无人机视觉系统中多模态数据的协同处理框架,包括图像、激光雷达(LiDAR)和惯性导航系统(IMU)数据的融合。研究结合YOLOv5进行目标检测,并引入时空一致性约束优化多模态数据对齐,提升了复杂环境下的检测鲁棒性59。
亮点:
多模态传感器(视觉+LiDAR+IMU)融合方法;
时空一致性约束增强跨模态特征对齐;
适用于自主导航与动态避障任务。
链接:
期刊论文
- 《TPH-YOLOv5:基于Transformer预测头的多模态特征增强检测》
主要内容:
虽然该论文主要改进YOLOv5的预测头设计,但其引入的Transformer模块能够有效整合多模态特征(如时序视频流与静态图像),增强了对无人机航拍场景中动态目标的捕捉能力。此外,结合CBAM注意力机制,模型在密集目标场景下实现了多模态特征的动态权重分配89。
亮点:
Transformer预测头支持时序与空间特征融合;
动态多模态注意力机制优化特征选择;
在无人机视频流检测中达到实时性与高精度的平衡。
链接:
会议论文
总结与建议
上述论文覆盖了多模态无人机视觉中的像素级融合、多传感器协同、数据集构建及动态特征增强等方向。若需进一步研究:
数据融合方法:可参考论文1和3的像素级与特征级融合技术;
多无人机协同:论文2和4提供了协同检测框架的设计思路;
实时性优化:论文5的Transformer预测头与轻量化设计值得借鉴。
更多细节建议访问原文链接或相关资源页面。
最新多模态计算机视觉论文
以下是基于2024年底至2025年初发表的最新多模态计算机视觉领域论文推荐,涵盖模型架构优化、应用场景扩展及认知能力评估等方向:
1. 跨模态注意力机制与多模态目标跟踪
- 论文标题:Cross-modulated Attention Transformer for RGBT Tracking(AAAI 2025录用)
- 研究团队:李成龙教授团队(人工智能学院)
- 主要内容:提出交叉调制注意力模块(CMA),通过可见光-红外(RGBT)双模态融合,优化跨模态注意力权重一致性,显著提升目标跟踪的鲁棒性和计算效率。实验表明,该方法在极端环境下(如低光照、雾霾)的跟踪精度和速度均优于现有Transformer模型。
- 应用场景:自动驾驶、机器人导航。
2. 多模态大模型的视觉认知能力评估
- 论文标题:Visual Cognition in Multimodal Large Language Models(Nature Machine Intelligence, 2025)
- 研究团队:德国马克斯·普朗克研究所、慕尼黑亥姆霍兹中心等
- 主要内容:系统评估多模态大语言模型(如GPT-4V、Claude-3)在直觉物理、因果推理和直觉心理学任务中的表现。研究发现,尽管模型在简单视觉任务中表现良好,但在复杂物理交互(如积木塔稳定性预测)和因果推理任务中仍显著落后于人类水平。
- 意义:揭示了当前多模态模型在认知推理上的局限性,为未来模型设计提供了改进方向。
3. 视觉空间智能基准与认知地图增强
- 论文标题:李飞飞、谢赛宁团队关于多模态大模型空间推理的研究
- 核心成果:提出VSI-Bench基准测试集,包含5000+视觉问答对,评估模型在物体配置、空间距离估计和时空任务中的能力。研究发现,71%的错误源于空间推理缺陷,而生成认知地图可将相对距离任务的准确率提升10%。
- 创新点:通过视频输入和动态空间建模,增强模型对全局空间关系的理解,为具身智能(Embodied AI)奠定基础。
4. 高效视觉语言模型与轻量化部署
- 论文标题:Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model(2024年5月)
- 研究亮点:设计1B参数的轻量级视觉语言模型,通过LLaVA范式实现高效模态对齐。在经典多模态基准测试中,其性能与四倍规模的模型相当,且适合消费级GPU部署。
- 应用价值:推动多模态技术在边缘计算和实时场景中的应用。
5. 多模态3D生成与重建技术
- 论文标题:CAT3D: Create Anything in 3D with Multi-View Diffusion Models(2024年5月)
- 技术突破:基于多视图扩散模型,仅需少量输入图像即可生成高一致性的3D场景,支持从任意视角实时渲染。相比传统方法,CAT3D在生成速度和场景多样性上显著提升,适用于虚拟现实和影视制作。
6. 未对齐多模态数据的显著性检测
- 论文标题:Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network(AAAI 2025录用)
- 贡献:构建包含20,000对未对齐RGB-T图像的数据集,并提出渐进式相关网络(PCNet),通过语义引导的单应性估计模块增强模态间相关性建模,显著提升显著目标检测的鲁棒性。
扩展阅读与资源
- 综述类:
-
- Multi-Modal Knowledge Graph Construction and Application: A Survey(2022):系统总结多模态知识图谱构建与推理技术。
- 会议信息:关注IEEE DLCV 2025(2025年4月,济南),聚焦多模态信息处理与深度学习前沿。
如需更完整的论文列表或具体细节,可参考上述引用来源的原文链接。