T1.Faker-CSDN博客

原创大模型技术发展概述 - （一）

1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力，在儿童早期发展，并随着一生的成长而演变。然而，机器要想像人类一样理解和使用语言进行交流，需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面，语言建模（LM）是一种重要的技术方法之一。

2023-07-12 15:32:25 1619 3

原创计算机视觉 + Self-Supervised Learning 五种算法原理解析

这样的划分是为了应对不同的问题和任务，并且通过不同的方法来训练模型从未标记的数据中学习有用的表示。类似地，自监督学习中的计算机模型也通过观察数据中的自动生成的标签来学习图像的特征。Barlow Twins模型中的冗余减少目标函数可以看作是一种额外的正则化方法，它在训练过程中通过衡量网络输出的互相关矩阵来减少特征的冗余。这有助于提高模型的泛化能力和学习效果。模型的input就是旋转后的图像，label就是原始图像，通过模型ConvNet学习到不同旋转图像的特征，来预测那个旋转的图像与原始图像最接近。

2023-06-20 17:02:32 3542

原创基于大模型GPT，如何提炼出优质的Prompt

Prompt简单说就是驱动大模型进行表达文本描述。更详细地说，Prompt的基本定义包括以下几个要素：文本片段：Prompt可以是一个短语、一句话、一个段落，甚至是一个完整的问题。它通常是由人类设计者创建的，用于明确和传达特定的意图或任务要求。引导模型行为：Prompt的目的是引导模型执行特定的操作或生成特定类型的输出。这可以包括回答问题、完成任务、写作文章、生成代码等。Prompt需要明确指导模型的期望行为，确保生成的结果符合预期。上下文和约束。

2023-05-23 17:39:34 6523 2

原创 MASF-YOLO 模型构建与验证全流程实现

通过论文已知，论文新增加了这三个模块，还有一个skip（这里没有实现），下面内容我们将讲解如何实现这个改进。

2025-06-23 16:00:19 716

原创 YOLO检测模型代码解构与改进方法论：从结构理解到模块设计

DetectionModel 是 Ultralytics YOLO 框架中目标检测任务的核心模型类，继承自 BaseModel，复用了基础模型的通用功能（如前向传播、模型融合、参数加载等），并针对检测任务实现了专属逻辑。解析检测模型的配置（YAML 文件或字典）。构建检测模型的网络架构（ backbone + head ）。定义检测任务的前向传播逻辑、损失函数及评估流程。# 344行。

2025-06-12 14:54:29 803

原创无 sudo 权限下 Conda 安装 GCC 全攻略：虚拟环境适配、版本冲突解决与实战指南

七、进阶：GCC 与 CUDA 版本冲突解决（以 CUDA 11.2 为例）原因：conda-forge 默认版本受 Python 版本限制。场景 1：PyTorch 自定义算子编译（GCC 9 + 需求）问题：默认频道与 conda-forge 的 GCC 版本冲突。原因：未正确添加 conda-forge 频道或网络限制。方案 2：升级 CUDA 至 11.8+（需硬件支持）问题 3：GCC 版本不足（如安装后仍为 8.0）方案 1：降级 GCC 至 10.3.0（推荐）场景 3：交叉编译（高级需求）

2025-06-05 11:31:17 974

原创基于扩散模型的光照编辑新突破：IC-Light方法解析与优化

IC-Light 方法是一种在扩散模型训练中具有创新性的方法，其核心在于将光传输一致性原理引入模型训练，以实现对图像光照的准确处理和模型的稳定训练。本文将从多个方面详细介绍 IC-Light 方法，首先深入探讨其核心思想与物理基础，这是该方法的理论基石，为后续的训练和应用提供了原理依据。接着，为了使模型能够应对各种复杂的光照场景，需要统一处理多种类型的训练数据，包括对光照的野外数据分布进行详细处理，这部分内容与数据的获取、格式统一以及增强技术相关，是模型训练的基础准备工作。

2025-03-28 16:21:54 1055

原创 ComfyUI实现模特换衣技术原理深度解析

在 ComfyUI 环境下，基于扩散模型实现模特换衣服的技术融合了多种先进的深度学习方法和模型架构，本文旨在结合论文技术方法和comfyui实现的模块组织来介绍其技术原理本文选择以这篇论文：《IMAGDressing-v1: Customizable Virtual Dressing》（https://arxiv.org/pdf/2407.12705v2）对该技术的架构、原理以及关键模块进行详细解析。论文中实现的情况：在论文《IMAGDressing-v1: Customizable Virtual

2025-03-12 15:39:31 1024

原创训练 FLUX LoRA模型安装与部署

在如今日新月异的 AI 辅助设计领域，LoRA（Low-Rank Adaptation）技术的应用愈发广泛，它为模型的个性化训练提供了强大助力。此前，我曾专门撰写文章，详细记录了如何快速训练 SDXL 模型的 LoRA，感兴趣的朋友不妨回顾一下：# 【AI 辅助设计】记一次图标风格 LoRA 训练。而近期，我一直密切关注着 FLUX LoRA 的训练技术和相关动态。毕竟，随着 AI 技术的不断演进，FLUX 已逐渐成为行业发展的大势所趋，曾经辉煌一时的 SD 时代正悄然远去。

2025-03-06 11:26:45 1438

原创 Vision Transformer 与 Mix Vision Transformer 对比：探索视觉领域的变革力量

近年来，Transformer 架构在自然语言处理领域取得巨大成功后，迅速蔓延至计算机视觉领域，催生出一系列优秀的模型。Vision Transformer（ViT）作为将 Transformer 引入视觉任务的先驱，为图像理解带来了全新的思路。而 Mix Vision Transformer（MiT）则在 ViT 的基础上进一步发展，针对视觉任务的特点进行了优化。在微调时，分类头则是一个简单的线性层，将图像表示映射到具体的类别上进行分类。，把它分割成固定大小的补丁，每个补丁的大小为。是可学习的分类嵌入，

2025-03-05 16:28:25 1553

原创 ComfyUI：Stable Diffusion 及 LoRA、VAE 、ControlNet模型解析

Hypernetwork(超网络)，就像是一个有特殊能力的助手，它可以帮助其他的神经网络变得更聪明。想象一下，你有一支足球队，每个球员都有自己的位置和技能。现在，如果有一个教练，他可以根据比赛的需要，临时给球员们一些额外的技能或建议，让球队表现得更好。Hypernetwork(超网络)在这个比喻中，就扮演了那个教练的角色。调整参数：Hypernetwork(超网络)会在原有的扩散模型基础上，新建一个神经网络来调整模型的参数。这就像是给足球队的每个球员一些特殊的训练，让他们在比赛中表现得更出色。效果类似。

2025-02-24 15:17:56 1658 1

原创完整的 LoRA 模型训练步骤：如何使用 Kohya_ss 进行 LoRA 训练

使用kohya_ss来进行lora训练，难点就是各种报错的问题如果你自己的CUDA，python，pytorch版本还和官网推荐的不一样，更是报错更多，Kohya_ss 是一个功能强大的工具，专为 Stable Diffusion 模型的训练设计，可以帮助用户使用 LoRA 方法对模型进行微调。在本文中，我们将详细介绍如何使用 Kohya_ss 进行 LoRA 模型训练的完整步骤，包括环境配置、数据处理、以及模型训练等。

2025-02-20 16:58:33 1500

原创 ComfyUI流程图生图原理详解

ComfyUI 是一款功能强大的工具，在图像生成等领域有着广泛应用。本文补充一点ComfyUI 的安装与配置过程遇到的问题，并深入剖析图生图过程及相关参数，帮助读者快速入门并深入理解其原理。

2025-02-12 17:25:20 1640 8

原创 ComfyUI 安装教程：macOS 和 Linux 统一步骤

本教程将详细介绍如何在 macOS 和 Linux 上安装 ComfyUI。我们将从安装 Anaconda 开始，到安装 PyTorch 和 ComfyUI，最后提供一些常见问题的解决方法。macOS和linux安装步骤很相似可以按照1️⃣安装anaconda2️⃣安装python3️⃣torch4️⃣comfyui。

2025-02-07 15:35:03 2897

原创一文了解Mamba和选择性状态空间模型 (SSM)

在这篇博文中，我们将带您深入了解序列建模的演变历程，从最初的简单前馈神经网络，到 Transformer 的出现，这一架构的革新彻底改变了自然语言处理等领域的面貌。接着，我们将探讨该领域的最新进展：Mamba架构，这一新兴模型有望突破 Transformer 的一些局限性，提升处理长序列数据的效率与准确性。如今，基于 Transformer 架构的模型已经成为深度学习领域的核心技术，支持着各种令人兴奋的应用。Transformer 的核心——自注意力机制——在多个任务中表现出色。然而，尽管 Transfor

2024-11-12 11:49:44 7752 3

原创机器学习中的两种主要思路：数据驱动与模型驱动

在机器学习的研究和应用中，如何从数据中提取有价值的信息并做出准确预测，是推动该领域发展的核心问题之一。在这个过程中，机器学习方法主要依赖于两种主要的思路：数据驱动与模型驱动。这两种思路在不同的应用场景中发挥着至关重要的作用，它们的核心差异在于如何利用数据和模型的关系来进行预测和决策。本文将深入探讨这两种思路的内涵和区别，并阐述它们在机器学习各个阶段中的应用。机器学习通常包括数据预处理、特征工程、模型选择、训练与评估等多个阶段。

2024-11-07 13:05:52 8896

原创深入探讨 Linux 命令行中的筛选方法与技巧

Linux 提供了多种处理和筛选命令行输出的工具，它们具有不同的功能，可以单独使用或组合使用来完成特定任务。awk：文本处理和模式匹配工具，能够根据条件筛选并处理特定列。grep：通过字符串或正则表达式匹配文本行。find：查找符合特定条件的文件或目录。xargs：将筛选出的结果传递给其他命令进行进一步处理。sed：用于文本编辑、替换以及筛选特定行。这些工具可以应用于几乎所有命令输出，能够让我们高效地从大量数据中提取所需的内容。通过组合使用这些工具，可以构建强大的命令流水线。

2024-10-25 14:36:42 1328

原创论文解读，神经网络全梯度表示《Full-Gradient Representation for Neural Network Visualization》

这篇论文介绍了一种新的工具，称为全梯度，用于解释神经网络的响应。这个全梯度的概念将神经网络的响应分解为两个部分：输入灵敏度和每个神经元的灵敏度分量。对于卷积网络，论文提出了一种近似显着图表示，称为 FullGrad，是通过聚合全梯度分量获得。博主自己的理解就是有点类似于传统图像处理梯度算法，例如Sobel基本上改为卷积处理，也可以理解为研究用于解释神经网络函数的显着图表示。虽然显着性没有单一的正式定义，但社区认为有几个重要的直观特征然而，我们面临着一个挑战：对于实际的神经网络来说，局部归因和全局归因这两种概

2024-08-08 17:06:57 1691

原创深入了解核函数：连接机器学习与统计学的桥梁

在机器学习中，支持向量机（SVM）是一种强大的监督学习模型，特别适合处理分类问题。然而，SVM最初被设计用于线性可分的数据集，现实中的数据往往不是线性可分的。为了解决这一问题，我们引入了核函数的概念。核函数通过将数据映射到高维特征空间，使得在新的特征空间中数据可以线性可分，从而提升了模型的表现。核函数（Kernel Function）是机器学习和统计学中的一个核心概念，尽管其重要性不言而喻，但它的定义和应用往往令人困惑。在多种应用中，核函数的不同形式和解释让初学者感到难以把握。

2024-08-08 14:13:44 1031

原创 OpenVINO部署

OpenVINO（Open Visual Inference and Neural Network Optimization）是由英特尔开发的工具包，旨在优化和加速在各种英特尔架构（如CPU、GPU和FPGA）上的深度学习推理，特别侧重于计算机视觉任务。该工具包支持来自流行框架（如TensorFlow和PyTorch）的模型，将它们转换为适合在英特尔硬件上部署的中间表示。

2024-06-26 17:20:54 3497 1

原创 Depth Anything V1，V2论文解读

例如，通过数据集混合和尺度-平移不变损失的构建，研究人员能够在训练过程中有效地利用多样化的数据源，提升模型的泛化能力。这些修改使得模型能够从大规模未标注图像中积极地获取额外的视觉知识，并显著提高了标注图像的基线表现，从而增强了模型的鲁棒性和处理开放世界数据的能力。这些数据集包含了丰富的场景和视角变化，能够有效提升模型的泛化能力和适应各种应用场景的能力。常见的仿射不变损失函数包括平方损失函数的变体或者其他形式的损失函数，如Huber损失函数等，用于惩罚预测值与真实值之间的差异，同时考虑到尺度和平移变化。

2024-06-26 16:37:25 4345 2

原创 DiffusionDet：用于物体检测的扩散模型

论文标题：DiffusionDet: Diffusion Model for Object Detection。

2024-06-14 15:31:26 1438 1

原创自监督分类网络：创新的端到端学习方法

现代人工智能的快速发展中，分类任务的高效解决方案一直备受关注。今天，我们向大家介绍一种名为Self-Classifier的全新自监督端到端分类学习方法。由Elad Amrani、Leonid Karlinsky和Alex Bronstein团队开发，Self-Classifier通过优化同一样本的两个增强视图的同类预测，能够在单阶段的端到端过程中同时学习标签和表示。为了避免出现所有标签都被错误地分配到同一类的退化解决方案，研究团队提出了一种在预测标签上具有均匀先验的交叉熵损失的数学变体。

2024-06-13 16:50:58 1548

原创 AI Agent 热门的10篇论文

基于智能多智能体系统（MAS）的学习结合了从环境中收集信息、识别数据、智能分类数据和预测未来数据、存储数据、将数据传递到知识管理系统（如决策支持系统（DSS）和管理信息系统（MIS））的过程。这篇论文探讨了现有的多智能体系统研究，并确定了尚未充分解决的挑战。这篇论文讨论了多智能体系统（MAS）的结构及其组成部分，强调了智能多智能体系统在各种研究领域中的潜力，特别是在支持机器学习模型的虚拟环境中。这篇综述对基于大语言模型（LLM）的多智能体系统的基本方面进行了深入讨论，包括这些智能体模拟的挑战、领域和环境。

2024-06-11 11:05:32 2258

原创星鸾云平台：高效配置Anaconda环境

星鸾云平台以其卓越的产品功能和优势，成为众多研究者和开发者的理想选择。平台提供多样化的算力资源和AI一体机产品，能够满足不同用户的需求。新用户注册即可体验，仅需支付1分钱即可使用GeForce RTX 4090 GPU显卡进行一小时的计算任务。本文将以在星鸾云服务器上安装Anaconda并配置Python环境为例，详细介绍如何利用星鸾云平台的优势来高效完成计算任务。

2024-05-31 14:33:26 1596 1

原创用ControlNet+Inpaint实现stable diffusion模特换衣

删除任何内容填充任何内容替换任何内容删除任何3D删除任何视频- 点击一个对象- 点击一个对象- 点击一个对象- 单击源视图的第一个视图中的对象- 点击视频第一帧中的对象- 分割模型SAM将对象分割出来- SAM将目标分割出来- SAM将目标分割出来- SAM将对象分割出来（使用三个可能的掩码）- SAM将对象分割出来（使用三个可能的掩码）- 修复模型填补“窟窿”- 输入文字提示- 输入文字提示- 选择一个掩码- 选择一个掩码。

2024-05-24 16:29:02 1533 1

原创 Wav2Vec 2.0：语音表示自监督学习框架

Wav2Vec 2.0是目前自动语音识别的模型之一。Wav2Vec 2.0 代表了无监督预训练技术在语音识别领域的重大进步。这些方法通过直接从原始音频中学习，无需人工标记，因此可以有效利用大量未标记的语音数据集。相比于传统的监督学习数据集通常只有大约几百小时的标记数据，这些新方法已经能够扩展到使用多达 1,000,000 小时的未标记语音进行训练。在标准基准测试上进行微调后，这种方法在低数据环境中特别显著地提升了现有技术的表现。

2024-05-23 11:32:12 7546

原创 GPT-4o：全面深入了解 OpenAI 的 GPT-4o

OpenAI 推出了最新的人工智能模型 GPT-4o，这是一项突破性的开发成果，将文本、语音和视觉功能集成到单一、无缝的人工智能体验中。GPT-4o 于 2024 年 5 月 13 日发布，其中“o”代表“omni”，它将彻底改变用户与 AI 交互的方式，使体验比以往更加自然和直观。

2024-05-14 14:38:49 5304

原创融合卷积和注意力机制：有效整合它们优势的方法概述

CNNs和Transformers在计算机视觉领域都取得了巨大成功，但它们的底层原理不同，导致它们在学习数据表示方面有着不同的优势和局限性。CNNs以稀疏连接和参数共享为特点，更注重局部结构，拥有较少的参数。因此，即使在相对较小的数据集上进行训练时（例如ImageNet），它们也能很好地泛化，但在捕捉全局关系方面表现欠佳，尤其是与Transformers相比。另一方面，Transformers具有密集连接，并且根据输入值动态调整连接权重，因此它们更容易学习复杂的全局关系，具有更强的表现能力。但由于其高表现力

2024-04-26 18:13:14 2872

原创为什么深度学习模型在 GPU 上运行得更快：CUDA 编程简介

当您运行某些深度学习模型时，您可能会选择使用一些流行的 Python 库，例如 PyTorch 或 TensorFlow。然而，众所周知，这些库的核心在底层运行 C/C++ 代码。此外，正如我们之前提到的，您可以使用 GPU 来加快处理速度。这就是 CUDA 发挥作用的地方！CUDA 代表统一计算架构，它是 NVIDIA 开发的用于在 GPU 上进行通用处理的平台。

2024-04-26 12:52:10 1321

原创神经网络压缩图像

典型的压缩管道由四个组件组成：编码：输入图像x通过编码器函数ε，将其转换为潜在表示z。量化：截断z以丢弃一些不重要的信息熵编码：使用某种形式的熵编码（例如：算术编码）来无损地存储截断的潜在z解码：原始x被重构为通过使用z通过解码器函数D获得x需要注意的是，压缩失真主要是由量化步骤造成的——编码器可以是一个双射函数。我们根据某种失真度量来衡量原始图像与重构图像之间的接近程度，其中常见的选择是平方误差ddxx∣∣x−x∣∣22。

2024-04-16 11:08:56 2548

原创论文解读：Fine-grained Visual Classification with High-temperature Refinement and Background Suppression

细粒度的视觉分类是一项具有挑战性的任务，因为不同类别之间存在着高度相似性，同时同一类别内的数据也存在着明显差异。为了解决这些挑战，本文提出了一种新的网络模型，称为“高温细化和背景抑制”（HERBS），该模型由高温细化模块和背景抑制模块组成。高温细化模块允许网络学习适当的特征尺度，并提高各种特征的表征能力，而背景抑制模块则利用分类置信度将特征图分为前景和背景，并抑制低置信度区域中的特征值，从而提高了模型的判别能力。

2024-04-11 15:37:45 2121 3

原创从 YOLOv1 到 YOLO-NAS 的所有 YOLO 模型：论文解析

目标检测是计算机视觉中一项重要任务。简而言之，目标检测定义为目标定位 + 目标分类。目标定位是使用边界框在图像中定位对象的方法，而目标分类是告诉我们该边界框中有什么的方法。在2016年的CVPR上，Joseph Redmon与来自FAIR（Facebook AI Research）和Allen Institute for AI的研究人员共同发表了关于YOLO（You Only Look Once）的重要论文。当时，它是一种单阶段目标检测器的最先进技术。

2024-01-03 16:40:29 2392

原创 Stable Diffusion模型概述

在Stable Diffusion v1中，VAE文件用于改善眼睛和面部的效果。它们是我们刚刚讨论的自动编码器的解码器。通过进一步微调解码器，模型可以呈现更精细的细节。你可能意识到我之前提到的并不完全正确。将图像压缩到潜在空间确实会丢失信息，因为原始的VAE没有恢复出精细的细节。相反，VAE解码器负责绘制精细的细节。这篇文章不完整，没有解释分类器免费引导（CFG），这是AI艺术家每天都在调整的一个值。为了理解它是什么，我们首先需要谈谈它的前身，分类器引导…

2024-01-02 08:56:14 3080 2

原创 Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

良好的人群计数方法也可以扩展到其他领域，如从显微图像中计数细胞或细菌、在野生动物保护区估算动物群体的数量，或者估算交通枢纽或交通拥堵中的车辆数量等。以前的方法主要采用检测风格的框架，通过在视频序列的两个连续帧上扫描检测器，基于增强外观和运动特征，估算行人的数量。然而，这些方法的局限性在于，它们通常假定人群由可以通过某些给定检测器检测到的单独实体组成，这在拥挤的环境或非常密集的人群中显着影响检测器性能和最终的估算准确性。然而，对于不同的场景和图像，需要综合利用多个信息源，以提高估算的准确性。

2024-01-02 08:55:04 1147

原创 2023年十篇具有影响力的人工智能研究论文

2023年，人工智能（AI）领域迎来了前所未有的飞速发展。随着技术的不断突破和革新，AI已经成为引领未来潮流的重要驱动力。在这篇文章中，深入研究了来自不同领域的十篇具有变革性的研究论文，涵盖了语言模型、图像处理、图像生成和视频编辑。随着对人工通用智能（AGI）的讨论揭示了AGI似乎比以往更易接近，一些特色论文探讨了通往AGI的各种路径，如扩展语言模型或利用强化学习进行跨领域的掌握。

2024-01-02 08:53:24 5989

原创探索三种生成模型：基于DDPMs、NCSNs和SDEs方法的Diffusion

去噪扩散模型代表了计算机视觉领域的一个新兴主题，取得了在生成建模方面的显著成果。该模型分为正向扩散阶段和反向扩散阶段。在正向扩散阶段，逐步添加高斯噪声逐渐扰动输入数据；在反向扩散阶段，模型通过学习逆转扩散过程逐步恢复原始输入数据。尽管计算负担较大，但由于生成样本的质量和多样性，扩散模型受到广泛赞赏。在计算机视觉中，扩散模型已应用于多个任务，包括图像生成、图像超分辨率、图像修复、图像编辑、图像翻译等。此外，扩散模型学到的潜在表示在判别任务中也被发现是有用的，例如图像分割、分类和异常检测。

2023-11-28 17:06:05 1932

原创 GLM: 自回归空白填充的多任务预训练语言模型

当前，ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点，探索它在对话模型中的创新之处。

2023-11-27 10:49:25 1576

原创探索稳定扩散技术中的LoRA权重激活：从模型微调到动漫风格图像生成的全过程

低秩适应（LoRA）技术是一种创新的方法，用于解决微调扩散器和大型语言模型（LLMs）的问题。在稳定扩散微调中，LoRA可应用于图像表示的交叉注意层，其中包含描述的潜在信息。为了理解模型微调的基本概念和方法，您可以参考Hugging Face扩散器的文档在这篇博客中，我们旨在介绍如何使用OpenVINO™优化构建Stable Diffusion + ControlNet管道，并启用LoRA权重，以便通过Stable Diffusion的Unet模型生成具有不同风格的图像。演示源代码基于。

2023-11-23 17:14:40 1723 1

原创深度学习模型训练计算量的估算

深度学习模型训练计算量的估算在当今的机器学习领域，深度学习模型的性能和先进性往往与其在更多计算资源上进行的训练有关。为了确保不同深度学习模型之间的准确比较，估算和报告训练过程中的计算资源使用情况变得至关重要。本文将探讨深度学习模型训练计算量的估算方法，并介绍了该领域的一些前沿。我们将重点介绍两种估算方法，以大家更好地理解和比较不同深度学习模型的训练计算量，这两种方法用于估算深度学习模型的训练计算量。

2023-11-23 14:58:32 1529

海康NVR开发SDK，sdk开发文档

海康NVR开发SDK，包含sdk需要的库文件，python demo和sdk开发文档pdf

2023-07-07

Multimodal Deep Learning

多模态技术综述目录： Preface v Foreword 1 1 Introduction 3 1.1 Introduction to Multimodal Deep Learning . . . . . . . . . . 3 1.2 Outline of the Booklet . . . . . . . . . . . . . . . . . . . . . . 4 2 Introducing the modalities 7 2.1 State-of-the-art in NLP . . . . . . . . . . . . . . . . . . . . . 9 2.2 State-of-the-art in Computer Vision . . . . . . . . . . . . . . 33 2.3 Resources and Benchmarks for NLP, CV and multimodal tasks 54 3 Multimodal architectures 83 3.1 Image2Text . . . . . . . . . . . .

2023-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

海康NVR开发SDK，sdk开发文档

Multimodal Deep Learning

Opencv中做人脸检测的时候的一个级联分类器 xml文件

科大讯飞数猪数据集，不需要积分

光栅目标检测数据yolov数据集格式

imageclassification.zip

covid-19数据集

pytorch_object_detection.zip

archive数据集，免费下载

空空如也