自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(246)
  • 资源 (5)
  • 收藏
  • 关注

原创 大模型技术发展概述 - (一)

1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力,在儿童早期发展,并随着一生的成长而演变。然而,机器要想像人类一样理解和使用语言进行交流,需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。

2023-07-12 15:32:25 1083 3

原创 计算机视觉 + Self-Supervised Learning 五种算法原理解析

这样的划分是为了应对不同的问题和任务,并且通过不同的方法来训练模型从未标记的数据中学习有用的表示。类似地,自监督学习中的计算机模型也通过观察数据中的自动生成的标签来学习图像的特征。Barlow Twins模型中的冗余减少目标函数可以看作是一种额外的正则化方法,它在训练过程中通过衡量网络输出的互相关矩阵来减少特征的冗余。这有助于提高模型的泛化能力和学习效果。模型的input就是旋转后的图像,label就是原始图像,通过模型ConvNet学习到不同旋转图像的特征,来预测那个旋转的图像与原始图像最接近。

2023-06-20 17:02:32 2934

原创 基于大模型GPT,如何提炼出优质的Prompt

Prompt简单说就是驱动大模型进行表达文本描述。更详细地说,Prompt的基本定义包括以下几个要素:文本片段:Prompt可以是一个短语、一句话、一个段落,甚至是一个完整的问题。它通常是由人类设计者创建的,用于明确和传达特定的意图或任务要求。引导模型行为:Prompt的目的是引导模型执行特定的操作或生成特定类型的输出。这可以包括回答问题、完成任务、写作文章、生成代码等。Prompt需要明确指导模型的期望行为,确保生成的结果符合预期。上下文和约束。

2023-05-23 17:39:34 5509 2

原创 OpenVINO部署

OpenVINO(Open Visual Inference and Neural Network Optimization)是由英特尔开发的工具包,旨在优化和加速在各种英特尔架构(如CPU、GPU和FPGA)上的深度学习推理,特别侧重于计算机视觉任务。该工具包支持来自流行框架(如TensorFlow和PyTorch)的模型,将它们转换为适合在英特尔硬件上部署的中间表示。

2024-06-26 17:20:54 700

原创 Depth Anything V1,V2论文解读

例如,通过数据集混合和尺度-平移不变损失的构建,研究人员能够在训练过程中有效地利用多样化的数据源,提升模型的泛化能力。这些修改使得模型能够从大规模未标注图像中积极地获取额外的视觉知识,并显著提高了标注图像的基线表现,从而增强了模型的鲁棒性和处理开放世界数据的能力。这些数据集包含了丰富的场景和视角变化,能够有效提升模型的泛化能力和适应各种应用场景的能力。常见的仿射不变损失函数包括平方损失函数的变体或者其他形式的损失函数,如Huber损失函数等,用于惩罚预测值与真实值之间的差异,同时考虑到尺度和平移变化。

2024-06-26 16:37:25 1052

原创 DiffusionDet:用于物体检测的扩散模型

论文标题:DiffusionDet: Diffusion Model for Object Detection。

2024-06-14 15:31:26 821 1

原创 自监督分类网络:创新的端到端学习方法

现代人工智能的快速发展中,分类任务的高效解决方案一直备受关注。今天,我们向大家介绍一种名为Self-Classifier的全新自监督端到端分类学习方法。由Elad Amrani、Leonid Karlinsky和Alex Bronstein团队开发,Self-Classifier通过优化同一样本的两个增强视图的同类预测,能够在单阶段的端到端过程中同时学习标签和表示。为了避免出现所有标签都被错误地分配到同一类的退化解决方案,研究团队提出了一种在预测标签上具有均匀先验的交叉熵损失的数学变体。

2024-06-13 16:50:58 1132

原创 AI Agent 热门的10篇论文

基于智能多智能体系统(MAS)的学习结合了从环境中收集信息、识别数据、智能分类数据和预测未来数据、存储数据、将数据传递到知识管理系统(如决策支持系统(DSS)和管理信息系统(MIS))的过程。这篇论文探讨了现有的多智能体系统研究,并确定了尚未充分解决的挑战。这篇论文讨论了多智能体系统(MAS)的结构及其组成部分,强调了智能多智能体系统在各种研究领域中的潜力,特别是在支持机器学习模型的虚拟环境中。这篇综述对基于大语言模型(LLM)的多智能体系统的基本方面进行了深入讨论,包括这些智能体模拟的挑战、领域和环境。

2024-06-11 11:05:32 579

原创 星鸾云平台:高效配置Anaconda环境

星鸾云平台以其卓越的产品功能和优势,成为众多研究者和开发者的理想选择。平台提供多样化的算力资源和AI一体机产品,能够满足不同用户的需求。新用户注册即可体验,仅需支付1分钱即可使用GeForce RTX 4090 GPU显卡进行一小时的计算任务。本文将以在星鸾云服务器上安装Anaconda并配置Python环境为例,详细介绍如何利用星鸾云平台的优势来高效完成计算任务。

2024-05-31 14:33:26 924 1

原创 用ControlNet+Inpaint实现stable diffusion模特换衣

删除任何内容填充任何内容替换任何内容删除任何3D删除任何视频- 点击一个对象- 点击一个对象- 点击一个对象- 单击源视图的第一个视图中的对象- 点击视频第一帧中的对象- 分割模型SAM将对象分割出来- SAM将目标分割出来- SAM将目标分割出来- SAM将对象分割出来(使用三个可能的掩码)- SAM将对象分割出来(使用三个可能的掩码)- 修复模型填补“窟窿”- 输入文字提示- 输入文字提示- 选择一个掩码- 选择一个掩码。

2024-05-24 16:29:02 845 1

原创 Wav2Vec 2.0:语音表示自监督学习框架

Wav2Vec 2.0是目前自动语音识别的模型之一。Wav2Vec 2.0 代表了无监督预训练技术在语音识别领域的重大进步。这些方法通过直接从原始音频中学习,无需人工标记,因此可以有效利用大量未标记的语音数据集。相比于传统的监督学习数据集通常只有大约几百小时的标记数据,这些新方法已经能够扩展到使用多达 1,000,000 小时的未标记语音进行训练。在标准基准测试上进行微调后,这种方法在低数据环境中特别显著地提升了现有技术的表现。

2024-05-23 11:32:12 1217

原创 GPT-4o:全面深入了解 OpenAI 的 GPT-4o

OpenAI 推出了最新的人工智能模型 GPT-4o,这是一项突破性的开发成果,将文本、语音和视觉功能集成到单一、无缝的人工智能体验中。GPT-4o 于 2024 年 5 月 13 日发布,其中“o”代表“o​​mni”,它将彻底改变用户与 AI 交互的方式,使体验比以往更加自然和直观。

2024-05-14 14:38:49 1503

原创 融合卷积和注意力机制:有效整合它们优势的方法概述

CNNs和Transformers在计算机视觉领域都取得了巨大成功,但它们的底层原理不同,导致它们在学习数据表示方面有着不同的优势和局限性。CNNs以稀疏连接和参数共享为特点,更注重局部结构,拥有较少的参数。因此,即使在相对较小的数据集上进行训练时(例如ImageNet),它们也能很好地泛化,但在捕捉全局关系方面表现欠佳,尤其是与Transformers相比。另一方面,Transformers具有密集连接,并且根据输入值动态调整连接权重,因此它们更容易学习复杂的全局关系,具有更强的表现能力。但由于其高表现力

2024-04-26 18:13:14 1370

原创 为什么深度学习模型在 GPU 上运行得更快:CUDA 编程简介

当您运行某些深度学习模型时,您可能会选择使用一些流行的 Python 库,例如 PyTorch 或 TensorFlow。然而,众所周知,这些库的核心在底层运行 C/C++ 代码。此外,正如我们之前提到的,您可以使用 GPU 来加快处理速度。这就是 CUDA 发挥作用的地方!CUDA 代表统一计算架构,它是 NVIDIA 开发的用于在 GPU 上进行通用处理的平台。

2024-04-26 12:52:10 930

原创 神经网络压缩图像

典型的压缩管道由四个组件组成:编码:输入图像x通过编码器函数ε,将其转换为潜在表示z。量化:截断z以丢弃一些不重要的信息熵编码:使用某种形式的熵编码(例如:算术编码)来无损地存储截断的潜在z解码:原始x被重构为通过使用z通过解码器函数D获得x需要注意的是,压缩失真主要是由量化步骤造成的——编码器可以是一个双射函数。我们根据某种失真度量来衡量原始图像与重构图像之间的接近程度,其中常见的选择是平方误差ddxx∣∣x−x∣∣22​。

2024-04-16 11:08:56 1886

原创 论文解读:Fine-grained Visual Classification with High-temperature Refinement and Background Suppression

细粒度的视觉分类是一项具有挑战性的任务,因为不同类别之间存在着高度相似性,同时同一类别内的数据也存在着明显差异。为了解决这些挑战,本文提出了一种新的网络模型,称为“高温细化和背景抑制”(HERBS),该模型由高温细化模块和背景抑制模块组成。高温细化模块允许网络学习适当的特征尺度,并提高各种特征的表征能力,而背景抑制模块则利用分类置信度将特征图分为前景和背景,并抑制低置信度区域中的特征值,从而提高了模型的判别能力。

2024-04-11 15:37:45 1068 3

原创 从 YOLOv1 到 YOLO-NAS 的所有 YOLO 模型:论文解析

目标检测是计算机视觉中一项重要任务。简而言之,目标检测定义为目标定位 + 目标分类。目标定位是使用边界框在图像中定位对象的方法,而目标分类是告诉我们该边界框中有什么的方法。在2016年的CVPR上,Joseph Redmon与来自FAIR(Facebook AI Research)和Allen Institute for AI的研究人员共同发表了关于YOLO(You Only Look Once)的重要论文。当时,它是一种单阶段目标检测器的最先进技术。

2024-01-03 16:40:29 1687

原创 Stable Diffusion模型概述

在Stable Diffusion v1中,VAE文件用于改善眼睛和面部的效果。它们是我们刚刚讨论的自动编码器的解码器。通过进一步微调解码器,模型可以呈现更精细的细节。你可能意识到我之前提到的并不完全正确。将图像压缩到潜在空间确实会丢失信息,因为原始的VAE没有恢复出精细的细节。相反,VAE解码器负责绘制精细的细节。这篇文章不完整,没有解释分类器免费引导(CFG),这是AI艺术家每天都在调整的一个值。为了理解它是什么,我们首先需要谈谈它的前身,分类器引导…

2024-01-02 08:56:14 2416 1

原创 Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

良好的人群计数方法也可以扩展到其他领域,如从显微图像中计数细胞或细菌、在野生动物保护区估算动物群体的数量,或者估算交通枢纽或交通拥堵中的车辆数量等。以前的方法主要采用检测风格的框架,通过在视频序列的两个连续帧上扫描检测器,基于增强外观和运动特征,估算行人的数量。然而,这些方法的局限性在于,它们通常假定人群由可以通过某些给定检测器检测到的单独实体组成,这在拥挤的环境或非常密集的人群中显着影响检测器性能和最终的估算准确性。然而,对于不同的场景和图像,需要综合利用多个信息源,以提高估算的准确性。

2024-01-02 08:55:04 1012

原创 2023年十篇具有影响力的人工智能研究论文

2023年,人工智能(AI)领域迎来了前所未有的飞速发展。随着技术的不断突破和革新,AI已经成为引领未来潮流的重要驱动力。在这篇文章中,深入研究了来自不同领域的十篇具有变革性的研究论文,涵盖了语言模型、图像处理、图像生成和视频编辑。随着对人工通用智能(AGI)的讨论揭示了AGI似乎比以往更易接近,一些特色论文探讨了通往AGI的各种路径,如扩展语言模型或利用强化学习进行跨领域的掌握。

2024-01-02 08:53:24 1624

原创 探索三种生成模型:基于DDPMs、NCSNs和SDEs方法的Diffusion

去噪扩散模型代表了计算机视觉领域的一个新兴主题,取得了在生成建模方面的显著成果。该模型分为正向扩散阶段和反向扩散阶段。在正向扩散阶段,逐步添加高斯噪声逐渐扰动输入数据;在反向扩散阶段,模型通过学习逆转扩散过程逐步恢复原始输入数据。尽管计算负担较大,但由于生成样本的质量和多样性,扩散模型受到广泛赞赏。在计算机视觉中,扩散模型已应用于多个任务,包括图像生成、图像超分辨率、图像修复、图像编辑、图像翻译等。此外,扩散模型学到的潜在表示在判别任务中也被发现是有用的,例如图像分割、分类和异常检测。

2023-11-28 17:06:05 964

原创 GLM: 自回归空白填充的多任务预训练语言模型

当前,ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点,探索它在对话模型中的创新之处。

2023-11-27 10:49:25 935

原创 探索稳定扩散技术中的LoRA权重激活:从模型微调到动漫风格图像生成的全过程

低秩适应(LoRA)技术是一种创新的方法,用于解决微调扩散器和大型语言模型(LLMs)的问题。在稳定扩散微调中,LoRA可应用于图像表示的交叉注意层,其中包含描述的潜在信息。为了理解模型微调的基本概念和方法,您可以参考Hugging Face扩散器的文档在这篇博客中,我们旨在介绍如何使用OpenVINO™优化构建Stable Diffusion + ControlNet管道,并启用LoRA权重,以便通过Stable Diffusion的Unet模型生成具有不同风格的图像。演示源代码基于。

2023-11-23 17:14:40 914 1

原创 深度学习模型训练计算量的估算

深度学习模型训练计算量的估算在当今的机器学习领域,深度学习模型的性能和先进性往往与其在更多计算资源上进行的训练有关。为了确保不同深度学习模型之间的准确比较,估算和报告训练过程中的计算资源使用情况变得至关重要。本文将探讨深度学习模型训练计算量的估算方法,并介绍了该领域的一些前沿。我们将重点介绍两种估算方法,以大家更好地理解和比较不同深度学习模型的训练计算量,这两种方法用于估算深度学习模型的训练计算量。

2023-11-23 14:58:32 580

原创 深入理解服务器进程管理与优化

服务器进程是在服务器上运行的程序的一个实例。它负责接收、处理和响应来自客户端的请求,通过网络或本地连接提供服务。服务器进程可以是各种类型的应用程序,例如Web服务器、数据库服务器、文件服务器等。其核心任务是处理与客户端的通信,执行相应的服务逻辑,并确保高效地管理系统资源。fuser’命令用于识别正在使用指定文件或文件系统的进程。在GPU相关的场景中,我们可以使用’fuser’命令来查找哪些进程正在使用NVIDIA GPU。基本用法。

2023-11-14 14:13:49 1773 3

原创 PEFT概述:最先进的参数高效微调技术

什么是PEFT什么是LoRA用例使用PEFT训练LLMs入门PEFT配置4位量化封装基础Transformer模型保存模型加载模型推理结论随着大型语言模型(LLMs)如GPT-3.5、LLaMA2和PaLM2在规模上不断扩大,对它们在下游自然语言处理(NLP)任务上进行微调变得越来越耗费计算和内存资源。参数高效微调(PEFT)方法通过仅微调少量额外的参数,同时冻结大多数预训练模型,解决了这些问题。这可以防止在大型模型中发生灾难性遗忘,从而使有限的计算资源能够进行微调。

2023-11-10 16:22:47 719

原创 Colorful Image Colorization灰度图像上色

作者的目标是将灰度输入通道XXXX∈RH×W×1X∈RH×W×1映射到关联的两个颜色通道YYY,即YFXYFX。Y∈RH×W×2Y∈RH×W×2为了实现这一任务,作者采用CIE Lab色彩空间,并使用欧氏损失函数来度量预测颜色和真实颜色之间的距离。然而,由于颜色上色问题具有固有的多模态性和歧义性,欧氏损失函数不够鲁棒,容易产生灰暗和褪色的结果。

2023-11-02 10:30:46 412

原创 Weights and Biases使用教程

Weights and Biases已经成为AI社区中最受欢迎的库之一。下面我将结合一个示例来介绍如何使用wandb库。我们将使用一个标准的深度学习模型,在CIFAR10数据集上执行图像识别。需要注意的是,模型的具体细节并不会对我们的实验产生真正的影响,因此我选择保持模型尽可能简单。我们将从头开始训练这个模型,以探索如何充分利用wandb库第一步是安装该库并创建一个新账户。

2023-10-23 16:46:08 749

原创 Anomalib 图像异常检测算法

在工业生产中,质量保证是至关重要的,因为生产中的细小缺陷可能导致产品不合格,甚至损害消费者和企业的利益。工业异常检测是一项关键任务,旨在从大规模的生产数据中可靠地检测出异常情况,这些异常可能是缺陷、故障或其他不正常情况。异常,又被称为离群值,是一个在数据挖掘领域中常见的概念,已经有不少的工作尝试对异常数据进行定义。一般情况下,会将常见的异常样本分为3个类:点异常、上下文异常和集群异常。点异常一般表现为某些严重偏离正常数据分布范團的观测值,如下图a(a)a。

2023-10-19 15:52:47 1733 2

原创 ISR实现RDN图像增强

这项研究提出了一种新颖的图像超分辨率(SR)解决方案,即残差稠密网络(RDN),以应对SR领域的挑战。RDN的设计主要集中在充分利用图像中的分层特征,旨在提高性能并提供更清晰的超分辨率图像。RDN的关键特点分层特征利用:RDN充分利用了来自卷积神经网络的各个层次的分层特征。这有助于更好地理解图像的不同部分,并为超分辨率提供更多信息。残差稠密块(RDB):RDN引入了残差稠密块,这是一种密集连接的卷积层,用于提取图像的丰富局部特征。这有助于保留图像中的细节和纹理。

2023-10-18 15:02:45 338

原创 Python itertools教程(python中的迭代器与组合迭代器)

当谈到在Python中优雅地处理迭代任务时,itertools库是一个不可或缺的工具。这个强大的库提供了一系列用于创建、操作和合并迭代器的函数,能够让你的代码更加紧凑、高效,并且更易于阅读和维护。无论是解决排列组合问题、处理无限序列,还是简化循环结构,itertools都能够成为你的得力助手。

2023-08-28 16:51:30 716 2

原创 机器学习可解释性

在这个阶段,我们使用一些解释技术,如局部模型解释、特征重要性分析、影响力分析等,来帮助我们理解模型是如何做出预测的,哪些特征对预测结果产生了重要影响,以及模型的决策是否合理和可信。事后可解释性的优点是,即使我们在构建模型时没有考虑可解释性,通过后续的解释分析,仍然可以获得对模型的解释,从而增强对模型的理解和信任。可解释性的重要性包括满足人类的好奇心和学习需求,协调知识结构中元素之间的矛盾,检测模型的偏见,增加社会接受度,并用于管理社会互动。置信区间是对权重估计的范围,它以一定的置信度覆盖“真实”权重。

2023-08-11 11:46:56 1566

原创 人群计数 Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework

在人群中对个体进行准确定位,与仅仅进行计数相比,更贴合于后续高级人群分析任务的实际需求。然而,现有的基于中间表示(例如密度图或伪框)作为学习目标的定位方法往往是反直觉的且容易产生错误。近期,涌现出一种全新的方法,旨在解决人群计数和个体定位的挑战。这种方法提出了一种纯点基框架,将个体定位与人群计数紧密结合。与传统方法仅仅报告图像级别的绝对计数误差不同,这个新方法引入了一种全新的度量标准,被称为密度标准化平均精度(nAP),以提供更全面和更精确的性能评估。

2023-08-10 12:37:30 402

原创 Meta-Transformer:基于Transformer的多模态感知,融合Token化与共享编码

论文标题:Meta-Transformer: A Unified Framework for。

2023-08-02 15:16:08 1802

原创 CoTracker跟踪器 - CoTracker: It is Better to Track Together

从最初的色彩恒定性方法,到FlowNet和FlowNet2等引领潮流的端到端卷积网络,再到更近期的Transformer和深度学习方法,该文对光流估计领域的技术进展进行了全面梳理。这种相关性的度量对于将轨迹与图像进行匹配和跟踪是非常重要的,因为它帮助模型在视频中找到与轨迹相关的图像区域,并用于更新轨迹的估计。同时,确保这样的点在训练数据中存在,通过在序列的中间帧中采样可见的点。是输入视频的帧序列,形状为(T, 3, H, W),其中T表示帧数,3表示RGB通道,H和W分别表示帧的高度和宽度。

2023-07-27 16:42:48 1570 4

原创 利用RLHF优化大模型:提升性能与应用能力

随着数据科学和人工智能领域的不断发展,大型语言模型和RLHF作为强大的工具正逐渐成为各种领域的重要组成部分。通过预训练和微调,大型语言模型能够具备丰富的语言表达能力,而RLHF则能够根据人类反馈持续改进模型的性能,使其更加智能和适应不同任务。然而,我们也必须认识到RLHF仍然面临着一些挑战,如可扩展性、人类偏见、解释性等问题。解决这些问题需要跨学科的研究和合作,以确保RLHF的应用能够安全、可靠、高效地应对现实世界的挑战。

2023-07-25 10:05:31 1026

原创 深度学习调参指南

深度学习调参指南:优化性能与资源消耗的平衡欢迎来到深度学习调参的指南!本篇博客适用于对最大化深度学习性能感兴趣的工程师和研究人员,前提是你具备机器学习和深度学习概念的基本知识。在本文中,我们将聚焦于超参数调优的过程,同时还会涉及一些深度学习其他方面的内容。让我们从开始新项目的指南开始。

2023-07-21 13:22:04 1564 2

原创 大模型技术发展概述 -(三)

5. 适应性调整LLM5.1 指令(Instruction)调整5.1.1 格式化实例构建5.1.2 指令(Instrcution)调整策略5.1.3 指令调整的效果5.2 对齐调优5.2.1 对齐的背景和标准5.2.2 收集人类反馈5.2.3 从人类反馈中进行强化学习5.3 高效微调5.3.1 参数高效微调方法5.3.2 LLM的参数高效微调。

2023-07-12 15:20:17 441

原创 大模型技术发展概述 -(四)

6. 使用方法6.1 上下文学习6.1.1 提示形式6.1.2 示范设计6.1.3 潜在机制6.2 CoT提示6.2.1 CoT下的上下文学习6.2.2 CoT进一步讨论7. 性能评估7.1 基本评估任务7.1.1 语言生成7.1.2 知识利用7.1.3 复杂推理7.2 先进能力的评估7.3 公共基准和实证分析。

2023-07-12 15:19:34 394

原创 大模型技术发展概述 -(二)

4. LLM预训练4.1 数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLMs的影响4.2 常用的LLM架构4.2.1 主流架构4.2.2 详细配置4.2.3 预训练任务4.3 模型训练4.3.1 优化设置4.3.2 可扩展训练技术。

2023-07-12 15:18:46 615 1

海康NVR开发SDK,sdk开发文档

海康NVR开发SDK,包含sdk需要的库文件,python demo和sdk开发文档pdf

2023-07-07

Multimodal Deep Learning

多模态技术综述 目录: Preface v Foreword 1 1 Introduction 3 1.1 Introduction to Multimodal Deep Learning . . . . . . . . . . 3 1.2 Outline of the Booklet . . . . . . . . . . . . . . . . . . . . . . 4 2 Introducing the modalities 7 2.1 State-of-the-art in NLP . . . . . . . . . . . . . . . . . . . . . 9 2.2 State-of-the-art in Computer Vision . . . . . . . . . . . . . . 33 2.3 Resources and Benchmarks for NLP, CV and multimodal tasks 54 3 Multimodal architectures 83 3.1 Image2Text . . . . . . . . . . . .

2023-04-10

Opencv中做人脸检测的时候的一个级联分类器 xml文件

CascadeClassifier,是Opencv中做人脸检测的时候的一个级联分类器。并且既可以使用Haar,也可以使用LBP特征 实例: cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

2022-11-02

科大讯飞数猪数据集,不需要积分

科大讯飞数猪数据集,json格式 支持coco,也可以在paddle中下载,或者使用paddlex转换一下格式,或者自己标注, 图片场景比较单一,可能模型泛化能力差

2022-10-13

光栅目标检测数据yolov数据集格式

已经划分好的train和val

2022-06-22

archive数据集,免费下载

archive数据集,免费下载

2021-10-29

covid-19数据集

免费下载

2021-10-11

pytorch_object_detection.zip

基于数据集COCO,实现fast-rcnn、retNet、SSD、YOLO3,四种算法

2021-07-22

imageclassification.zip

基于pytorch实现图像分类算法,LetNet,AlexNet,VGG,GoogLeNet,ResNet,每个算法,有三个文件。(model.py、train.py、predict.py)。使用数据集保存在data_set文件中

2021-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除