- 博客(344)
- 资源 (3)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 模式识别与人工智能(程序与算法)系列讲解 - 总目录
人工智能和硬件设计博士生、CSDN与阿里云开发者博客专家,多项比赛获奖者,发表SCI论文多篇。o( ̄▽ ̄)dლ(°◕‵ƹ′◕ლ)希望在传播知识、分享知识的同时能够启发你,大家共同进步。ヾ(◍°∇°◍)ノ゙。
2023-07-10 18:51:56
889
5
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 【Image captioning】AI算法说——图像描述(Image captioning)
COCO数据集是一个大规模常见物体检测、分割和图像描述的数据集。它包含超过330k张图像,其中包括2.5 million个目标实例,每张图像都有5个不同的图像描述。COCO数据集已成为自然语言处理和计算机视觉领域中一个非常优秀的基准数据集。2、
2023-06-11 14:45:30
9481
2
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 博客便捷检索目录
目录Leetcode刷题Verilog刷题CSDN操作tensorflow 学习matlab数字图像处理python-opencv模式识别与机器学习实战练习深度学习强化学习模型的压缩与加速1. 理论分析2. 练习实现3. 剪枝阅读4. 模型设计阅读5. 量化阅读6. 硬件加速网络结构搜索1. 理论分析2.论文阅读实验软件使用与程序语法pytorch使用积累Leetcode刷题Leetcode题目Verilog刷题HDLBits(1)——Modules:HierarchyCSDN操作1.CSDN字
2020-05-15 11:23:49
2254
3
原创 【IC-RS】论文16 HCNet: Hierarchical Feature Aggregation and Cross-Modal Feature Alignment for Remote Sen
遥感图像字幕(RSIC)是一项自然语言处理与计算机视觉相结合的综合性任务,因其在图像检索[2]、场景理解[3]、变化检测[4]等领域的广泛应用而引起了人们的广泛关注。与图像超分辨率[5]、[6]、目标检测[7]、语义分割[8]等任务相比,图像字幕不仅可以识别图像中的目标,还可以捕获目标之间的关系。RSIC面临着几个特殊的挑战。1)尺度变化:遥感影像中同一类别的物体可能会出现较大的尺度变化,例如一个机场可能包含不同大小的飞机。
2024-07-14 17:34:26
456
原创 【IC-RS】论文15 From Plane to Hierarchy: Deformable Transformer for Remote Sensing Image Captioning
随着遥感图像的增长,自动理解图像内容吸引了许多研究人员对深度学习在遥感图像中的兴趣。受自然图像描述的启发,基于卷积神经网络(CNN)-循环神经网络(RNN)的模型已被广泛应用于遥感图像描述中。然而,当前的注意力层在同时从遥感图像的背景中挖掘隐藏的前景并进行特征交互学习方面效率不高。同时,新的主流语言模型最近在句子生成方面超过了传统的长短期记忆(LSTM)。为了解决上述问题,本文提出了一种新颖的思想,通过分离前景和背景使平面的遥感图像立体化。
2024-06-03 12:11:01
751
原创 深度学习在工业检测中的应用:基于SAM模型的自动掩码生成
在工业生产过程中,异常检测是一项关键任务。及时发现并处理异常可以有效提高产品质量和生产效率。然而,传统的人工检测方法效率低下,难以应对海量数据的处理需求。随着深度学习技术的发展,自动化检测系统逐渐成为主流,其中基于图像的异常检测尤为重要。在本文中,我们将介绍如何利用Segment Anything Model(SAM)进行自动掩码生成,以实现高效的工业检测。
2024-05-28 14:35:00
621
原创 如何使用Python和HDF5存储复杂数据结构:包括嵌套字典、列表及NumPy数组
在数据分析、机器学习或任何需要高效数据管理的项目中,能够灵活地保存和恢复复杂数据结构是至关重要的。本文将介绍如何利用Python、HDF5以及JSON来存储和读取包含嵌套字典、基本类型、列表、元组及NumPy数组的复杂数据结构。库和JSON序列化,我们能够有效地存储和检索包含复杂数据类型的Python字典。这种方法不仅支持大数据量的高效存取,还保持了数据的结构和类型信息,非常适合需要长期存储或频繁交换的复杂数据分析项目。特别是,它处理了嵌套字典的特殊情况,通过将其转换为JSON字符串来存储。
2024-05-27 18:32:40
248
原创 【Image captioning】基于检测模型网格特征提取——以Sydeny为例
今天,我们将重点探讨如何利用Faster R-CNN检测模型来提取Sydeny数据集的网格特征。具体而言,这一过程涉及通过Faster R-CNN模型对图像进行分析,进而抽取出关键区域的特征信息,这些特征在网格结构中被系统地组织和表示。下面,我将引导大家深入了解这一特征提取流程。
2024-05-15 21:11:43
104
原创 【Image captioning】In Defense of Grid Features for Visual Question Answering实现流程
这是该为了更持久的维护,我们使用发布了代码,而不是基于的原始代码。当前的代码库应该能够复现论文中报告的结果,例如,对于与-large配对的X-101主干,报告了约72.5的单模型VQA分数。
2024-05-14 16:10:49
91
1
原创 【Image captioning】RSICD遥感图像字幕数据集生成Resnet特征
该数据集中的遥感图像的语言描述更相关,因为这些描述不包含预定义的观察方向和模糊的形容词,使用了3325个不同的单词。在此过程中,它将对图像的标注信息进行一些基本预处理(例如,转为小写、添加 UNK 标记等),创建一个特殊的 UNK 标记,并将所有标注信息编码为数组形式。最终生成的 HDF5 文件包含了多个字段,包括所有标注信息的编码数组以及每张图像标注信息的起始和终止指针;是一个 RSICD-Captions数据集的注释文件,其中包含了每个图像的标注信息,如图像的路径、ID、宽高、类别等。
2024-05-10 23:07:12
190
原创 【Image captioning】Sydney遥感图像字幕数据集生成Resnet特征
每幅遥感图像都是从澳大利亚悉尼的一幅分辨率为 18,000 × 14,000 像素的遥感图像中裁剪而来,裁剪后的分辨率为 500 × 500 像素。在此过程中,它将对图像的标注信息进行一些基本预处理(例如,转为小写、添加 UNK 标记等),创建一个特殊的 UNK 标记,并将所有标注信息编码为数组形式。是一个 Sydney-Captions数据集的注释文件,其中包含了每个图像的标注信息,如图像的路径、ID、宽高、类别等。在使用 Sydney数据集进行训练和评估时,需要使用该文件来加载数据集并提取标注信息。
2024-05-10 21:50:06
98
原创 【Image captioning】UCM遥感图像字幕数据集生成Resnet特征
UCM-Captions数据集包含21个类别,包括飞机、海滩、高架桥和体育场等,总共有2100张遥感图像。文件,以供数据加载器使用。在此过程中,它将对图像的标注信息进行一些基本预处理(例如,转为小写、添加 UNK 标记等),创建一个特殊的 UNK 标记,并将所有标注信息编码为数组形式。最终生成的 HDF5 文件包含了多个字段,包括所有标注信息的编码数组以及每张图像标注信息的起始和终止指针;是一个 UCM-Captions数据集的注释文件,其中包含了每个图像的标注信息,如图像的路径、ID、宽高、类别等。
2024-05-10 13:28:48
645
原创 【IC-RS】论文14 Cooperative Connection Transformer for Remote Sensing Image Captioning
随着深度神经网络(DNNs)的发展,遥感图像在计算机视觉任务如目标检测[1]、[2]、[3]和图像分割[4]、[5]等方面取得了显著进展。受单一模态发展的启发,遥感成像研究已从单一模态转变为多模态[6]。
2024-05-08 19:33:22
48
原创 【Image captioning】SD-FSIC(Self-Distillation for Few-Shot Image Captioning)在COCO数据上的训练与测试
这个程序基于罗若天的代码实现,因此我们可以使用与该代码相同的 Python 环境。首先,我们执行命令来查看已有的环境列表,其中是程序所需的环境。因此,我们可以克隆该环境并进行重命名。然后我们激活该环境。
2024-05-08 08:55:36
52
原创 【IC-RS】论文13 A Multiscale Grouping Transformer With CLIP Latents for Remote Sensing Image Captioning
遥感图像字幕(RSIC)的研究旨在将遥感图像(RSIs)翻译成自然语言描述,使非专家能够直观地理解图像内容。与传统的RSIs任务(如目标检测[1]、[2]、[3]、[4]和场景分类[5]、[6]、[7]、[8])相比,RSIC任务进一步阐明了RSIs的丰富信息,并为灾害监测、农业管理和城市规划等广泛的应用领域提供了直观的指导。尽管自然图像字幕(NIC)方面已经有了相当大的进展,但对RSIC的研究仍然很少。
2024-05-07 16:01:27
411
原创 深入理解深度学习中的指数移动平均(EMA)
指数移动平均(EMA)作为一种常用的优化技巧,在深度学习中具有广泛的应用。通过平滑参数更新过程、减少性能波动、加速模型收敛和改善模型泛化能力等方面的作用,EMA为提高深度学习模型的性能提供了有力的支持。在未来的研究中,我们可以进一步探索EMA在深度学习中的应用场景和优化方法,以推动深度学习技术的发展。
2024-05-06 11:04:59
446
原创 【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning
遥感图像(RSI)字幕生成旨在为遥感图像生成有意义且语法正确的句子描述。然而,相比于自然图像字幕,RSI字幕生成面临着由于RSI特性而产生的额外挑战。第一个挑战源于这些图像中存在大量物体。随着物体数量的增加,确定描述的主要焦点变得越来越困难。此外,RSI中的物体通常外观相似,进一步复杂化了准确描述的生成。为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Transformer)用于RSI字幕生成。首先,在多层特征提取(MFE)模块中提取场景级和物体级特征。
2024-04-21 01:03:01
144
原创 【Image captioning】Self-Distillation for Few-Shot Image Captioning (SD-FSIC)在COCO数据上的训练与测试
这个程序基于罗若天的代码实现,因此我们可以使用与该代码相同的 Python 环境。首先,我们执行命令来查看已有的环境列表,其中是程序所需的环境。因此,我们可以克隆该环境并进行重命名。然后我们激活该环境。
2024-04-20 12:00:25
48
原创 【Image captioning-RS】论文阅读十一—FRIC: a framework for few-shot remote sensing image captioning_2024
传统的遥感图像解释任务通过处理标签或关键目标来获取图像级的语义信息,而图像字幕(IC)则关注于生成描述图像的句子。在遥感领域,IC已经受到了大量的关注,例如在灾害风险评估(Liu等,2018)和图像检索(Cheng等,2021)中。然而,在RC中存在少样本问题,即字幕标记的遥感样本总是稀缺的。导致遥感样本字幕标记稀缺的原因有:由于各种限制,获取包含特定目标场景的遥感图像是困难的。RC需要图像包含足够的内容以形成具有丰富信息的描述性句子。此外,为每个样本配备字幕标签的难度和成本很高。
2024-04-19 11:34:54
130
原创 【Image captioning-RS】论文阅读十—Self-Learning for Few-Shot Remote Sensing Image Captioning_2022
深度神经网络因其出色性能而被广泛应用于遥感图像的分析和解释。典型的应用场景包括场景分类[1,2]、目标检测[3,4]和实例分割[5,6]。遥感图像字幕生成作为一个需要同时建模遥感图像中的视觉特征和语义信息的多模态任务,在近年来受到了关注。该任务旨在描述遥感图像中的重要目标和场景,包括其特征、关系和状态。这需要深度神经网络能够捕获更深层次的视觉特征和语义信息以生成全局视角描述。这个研究方向具有很高的研究价值[7],并可以为交通指挥、森林防火等应用场景提供实时信息支持。
2024-04-18 10:17:20
100
原创 【Image captioning】论文阅读九—Self-Distillation for Few-Shot Image Captioning_2022
深度神经网络 (DNN) 的进步在视觉和自然语言处理任务中展现了良好的性能。在这些进步的推动下,图像字幕这一需要视觉和语言建模的跨模态任务的研究近年来发展迅速。大多数图像字幕方法基于手动标记的图像字幕对以监督学习方式学习深度神经网络模型[5,54,57]。尽管取得了成功,但这些监督模型的训练需要大量与图像配对的字幕语料库,这是极其耗费人力的。
2024-04-16 13:28:25
306
1
原创 【Image captioning】论文阅读八—ClipCap: CLIP Prefix for Image Captioning_2021
在图像描述任务中,目标是为给定输入图像提供一个有意义且有效的自然语言描述。这个任务面临两个主要挑战。第一个是语义理解。这涵盖了从简单任务(如检测主要对象)到更复杂任务(如理解图像中所描绘部分之间的关系)的各个方面。例如,在图1左上角的图像中,模型理解到对象是一个礼物。第二个挑战是描述同一图像的可能方式很多。在这方面,训练数据集通常会决定给定图像的首选描述方式。图1. 我们的ClipCap模型生成了描述相应图像的标题。这里的结果是使用Conceptual Captions数据集进行训练的模型的结果。
2024-01-27 21:43:09
1190
原创 图像字幕中一些广泛使用的技术
Faster R-CNN的工作原理与Fast R-CNN类似,都是先将输入图像送入卷积神经网络生成一个卷积特征图,然后使用这个特征图生成区域建议。但是,不同于Fast R-CNN的是,Faster R-CNN使用一个单独的网络来预测区域建议,而不是使用选择性搜索算法。GRU是LSTM的一个变体,它通过减少门的数量来简化模型结构,这使得GRU比LSTM更容易训练,并且在处理较小或较不频繁的数据集时可能表现得更好。不过,随着研究的不断深入,新的模型和技术也在不断出现,为处理序列数据提供了更多的可能性。
2024-01-26 22:05:35
762
原创 【Image captioning】论文阅读七—Efficient Image Captioning for Edge Devices_AAAI2023
近年来,图像描述技术取得了快速发展。然而,对大容量存储和复杂计算负担的需求限制了这些图像描述模型在移动设备上的部署。主要的障碍在于沉重的视觉特征提取器(即目标检测器)和复杂的跨模态融合网络。为此,我们提出了。
2024-01-25 17:23:05
475
原创 AI研究必备!这些网站你不可不知
在人工智能的浪潮中,你是否感到手足无措?别担心,今天我就为大家揭晓那些AI研究者们的秘籍——他们常用的网站。这些网站不仅包含了丰富的资源,还能让你的研究之路更加顺畅。让我们一起探索这些宝藏,让你的AI之旅更加精彩!
2024-01-24 19:36:59
1055
原创 机器学习工程师在人工智能时代的角色
在当今的数字时代,人工智能(AI)已成为许多行业不可或缺的一部分。从流程自动化到增强客户体验,人工智能具有改变企业的巨大潜力。这一变革性技术的核心是机器学习,该领域专注于开发算法,使计算机系统能够在无需明确编程的情况下学习并做出预测或决策。机器学习工程师在各种应用中实施和部署机器学习模型方面发挥着至关重要的作用。他们弥合了传统软件工程和数据科学之间的差距,结合编码和数学知识来创建强大的人工智能系统。在本文中,我们将深入探讨机器学习工程的理解、技能、责任、挑战和未来前景。
2024-01-23 14:00:48
1124
1
原创 Awesome Image Captioning
Awesome Image Captioning目录Awesome Image Captioning2024年2023年2022年2021年2024年2023年2022年2021年
2024-01-22 21:43:49
112
原创 Win11桌面路径改为其他盘的简单教程
在使用电脑的过程中,桌面文件夹是我们经常会使用到的地方,而默认情况下,桌面文件夹都会存放在系统安装盘的C盘上。随着时间的推移和文件的增多,C盘的磁盘空间可能会越来越紧张,这时候我们可以考虑修改桌面路径,将其移动到其他分区,以减轻C盘的压力,提升电脑的运行速度。
2024-01-22 10:23:56
875
原创 【Image captioning】论文阅读六—Semantic-Conditional Diffusion Networks for Image Captioning_CVPR2023
作为视觉和语言领域中的基础任务之一,图像描述旨在使用自然语句描述感兴趣的语义。这项任务自然地将计算机视觉和自然语言处理连接在一起,通过感知场景中的视觉内容并将其解释为人类语言,模拟了人类智能的基本能力。目前,当前最先进技术中的主导力量是利用编码-解码结构,并以自回归方式构建学习过程。特别地,图像编码器负责将视觉内容编码为高级语义,而句子解码器学习逐字解码顺序句子(图1a)。然而,这种自回归进展仅允许单向的文本信息传递,并且通常依赖于随着句子长度的平方增长的大量计算资源来进行。
2024-01-21 11:22:34
903
原创 【Image captioning】图像描述标注(Image captioning)软件的设计与实现
大家好!我是一位对图像字幕(Image captioning)生成感兴趣的研究者。在研究过程中,我不可避免地需要对图像进行标注。然而,早期阶段我使用TXT记事本进行语言描述时,遇到了一些效率低下、错标和漏标等问题。为了提高工作效率,我设计了一款基于QT的图像描述标注软件。
2024-01-20 19:32:41
553
原创 【Image captioning】论文阅读五—Towards local visual modeling for image captioning(PR期刊)
图像字幕的任务是生成一个流畅的句子来描述给定的图像。近年来,这一领域得到了迅速的发展,并得到了一系列新方法[1,2]和数据集[3,4]的支持。受到自下而上注意方法(自下而上Attention)的巨大成功[5]的启发,现有的图像字幕方法大多采用目标检测器提取的区域特征作为视觉表示,如Faster R-CNN[6]。由于检测器是在大规模视觉基因组数据集上进行预训练的[7],因此它可以对图像中的显著区域生成判别表示,并为字幕提供完整的对象信息。为此,基于区域特征的图像字幕已经取得了重大进展[2,8,9]。
2024-01-12 15:32:09
199
1
原创 使用python爬虫语言调用有道翻译实现英中互译(2023实现)
如果你想使用这段代码进行翻译,需要先在有道翻译官网申请一个开发者账号,并获取到相应的API密钥。然后将密钥替换到代码中的。作者简介:人工智能和硬件设计博士生、CSDN与阿里云开发者博客专家,多项比赛获奖者,发表SCI论文多篇。ლ(°◕‵ƹ′◕ლ)希望在传播知识、分享知识的同时能够启发你,大家共同进步。ヾ(◍°∇°◍)ノ゙。
2023-10-23 10:37:32
1045
原创 使用python语言调用百度翻译接口实现中英互译(详细教程)
通用翻译API支持提供200+语种互译的在线文本翻译服务,支持多达4万多个语言方向,且支持多语种自动检测。您只需调用通用翻译API,传入待翻译的内容,并指定要翻译的源语言(支持源语言语种自动检测)和目标语言,即可得到相应的翻译结果。这个结果是一个JSON格式的字符串,通过将其解析为Python字典,可以提取出翻译后的文本结果。请求方式: 可使用 GET 或 POST 方式,如使用 POST 方式,Content-Type 请指定为:application/x-www-form-urlencoded。
2023-10-23 09:34:30
783
原创 使用Python找到相似图片的方法
在日常生活中,我们可能会遇到需要查找相似图片的情况。例如,我们可能有一张图片,并希望找到文件夹中与该图片相似的其他图片。本文将介绍如何使用Python代码来快速找到相似图片。
2023-10-19 08:30:00
768
原创 使用Python找到重复图片的方法
在日常生活中,我们可能会遇到需要清理计算机中的大量图片文件的情况。其中一个常见的问题是重复的图片占据了大量的存储空间,因此我们需要找到并删除这些重复的图片。本文将介绍如何使用Python代码来快速找到重复图片,并将它们复制到指定文件夹。
2023-10-18 09:13:20
843
原创 使用PyQt5创建图片查看器应用程序
作者:安静到无声在本教程中,我们将使用PyQt5库创建一个简单的图片查看器应用程序。这个应用程序可以显示一系列图片,并允许用户通过按钮切换、跳转到不同的图片。
2023-10-13 19:45:00
748
Python可视化典型例程(phcarts,matploible,seaborn)
2023-08-29
[2017年国赛MATLAB创新奖C题]南京铁道职业技术学院-颜色与物质浓度的辨识问题.zip
2023-08-27
[2015年国赛MATLAB创新奖B题]西安电子科技大学-“互联网+”时代的出租车资源配置.zip
2023-08-27
[2015年国赛MATLAB创新奖D题]解放军重庆通信学院-众筹筑屋规划方案设计模型.zip
2023-08-27
[2014年国赛MATLAB创新奖A题]浙江工业大学-嫦娥三号软着陆轨道设计与控制策略.zip
2023-08-27
图像描述标注(Image captioning)软件的设计与实现
2024-01-22
FPGA+图像soble滤波+ZYBO+verilog(这是一个特别完整的工程代码)
2023-08-31
FPGA+Verilog搭建一个卷积运算单元的简单实现+ZYBO+verilog(这是一个特别完整的工程代码)
2023-08-31
FPGA+彩色图片显示+verilog+ZYBO(这是一个特别完整的工程代码)
2023-08-31
FPGA+彩条显示+ZYBO(这是一个特别完整的工程代码)
2023-08-31
如何撰写数学建模论文()
2023-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人