自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知来者逆的博客

计算机视觉学习笔记

  • 博客(501)
  • 资源 (49)
  • 收藏
  • 关注

原创 深入探究理解大型语言模型参数和内存需求

大型语言模型是使用海量数据集训练的神经网络,用于理解和生成人类语言。它们依赖于 Transformers 之类的架构,这些架构使用自注意力等机制来处理和生成文本。Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中引入的 Transformer 架构已成为许多 LLM 的基础。它由一个编码器和一个解码器组成,每个编码器和解码器都由多个相同的层组成。

2024-07-19 14:45:54 1252

原创 HiFi-GAN——基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频

本研究中的 HiFiGAN 是一种基于 GAN 的生成模型,它可以来源具体来说,它由一个发生器和两个判别器组成:多周期判别器(MPD)和多尺度判别器(MSD)。本文介绍了有关 HiFiGAN 的研究,这是一种用于高效、高质量语音合成的 GAN 模型。本研究有三个局限性是否适用于更多的说话者和语言还不得而知。嗓音的情感和节奏表现力尚未得到充分测试。尚未对有限计算资源环境下的语音合成性能进行评估。

2024-07-18 10:49:23 891

原创 隐性行为克隆——机器人的复杂行为模仿学习的新表述

在本文中,我们重点讨论了模仿学习的传统方法(显式策略)无法处理的离散性和多模态问题,并提出了一种可以处理这些问题的新方法(隐式策略)。在模拟和真实机器上的实验表明,它的性能明显优于传统方法,而且在真实机器上非常稳健。需要改进的一个方面是,与之前的 "显式政策 "相比,计算成本有所增加,因此如果能进一步降低计算成本,就有可能完成更多的动态任务。

2024-07-17 21:07:39 988

原创 文本到 3D AI 生成——Meta 3D Gen、OpenAI Shap-E工作原理与算法解析

根据文本提示生成 3D 数字资产的能力代表了人工智能和计算机图形学领域最近最令人兴奋的发展之一。随着 3D 数字资产市场规模预计将从,文本转 3D 人工智能模型将在游戏、电影、电子商务等行业的内容创作革命中发挥重要作用。但这些人工智能系统究竟是如何工作的呢?在本文中,我们将深入探讨文本转 3D 生成背后的技术细节。

2024-07-17 09:55:45 832

原创 速度与质量的碰撞——对抗扩散蒸馏 (ADD) 如何彻底改变图像生成

ADD 代表了图像生成领域的重要一步,它将 GAN 的速度与扩散模型的质量融为一体。这种创新方法彻底改变了各个领域,从创意产业和医疗保健到科学研究和实时内容创作。ADD 通过显著减少迭代步骤实现了快速逼真的图像合成,使其非常高效且用途广泛。整合分数提炼和对抗性损失可确保高质量输出,这对于要求精确度和真实度的应用至关重要。总体而言,ADD 是 AI 驱动图像生成时代的一项变革性技术。

2024-07-16 15:06:49 1258

原创 用于大规模图像识别的深度卷积网络

这项研究探讨了卷积网络深度对图像识别准确性的影响。重要的是,对具有小型卷积滤波器的网络进行的评估表明,具有 16-19 个权重层的深度网络的性能优于传统配置。这些结果使得该模型在2014年ImageNet挑战赛中取得了成功,并在其他数据集上表现出色。研究人员的目标是向公众提供两个最有效的 ConvNet 模型,以促进深度视觉表示方面的研究。

2024-07-15 23:52:12 761

原创 基于用户鼠标移动的规律可以对用户身份进行连续验证的方法

论文指出,在快速发展的网络安全环境中,传统的身份验证方法很容易受到复杂攻击的影响。因此,需要创新和强大的身份验证机制。持续验证是一种超越传统单点验证的方法,它可以监控用户行为并不断验证访问权限。鼠标移动包括与用户鼠标移动相关的参数(如速度、轨迹、操作类型等)。通过分析这些模式,可对用户进行身份验证。虽然以前的相关研究提出了各种方法,如生物识别和基于行为的身份验证,但鼠标动态技术已成为一种非侵入性的有效手段。这种方法可以根据用户的交互模式来识别和认证用户。

2024-07-14 22:16:51 888

原创 OpenCV图像处理——霍夫圆检测与最小二乘法拟合圆

opencv图像处理实现霍夫圆检测与最小二乘法拟合圆实现

2024-07-14 20:55:07 1185

原创 MARKLLM——LLM 水印开源工具包

在本文中,我们讨论了 MarkLLM,这是一个开源的水印工具包,它提供了一个可扩展且统一的框架来实现 LLM 水印算法,同时提供了用户友好的界面以确保易于使用和访问。此外,MarkLLM 框架支持这些框架机制的自动可视化,从而增强了这些模型的可理解性。MarkLLM 框架提供了一套全面的 12 种工具,涵盖三个视角,以及两个用于评估其性能的自动评估流程。

2024-07-14 09:19:25 729

原创 OpenCV图像处理——判断轮廓是否在圆环内

OpenCV图像处理——判断轮廓是否在圆环内

2024-07-13 23:58:58 539

原创 OpenCV图像处理——获取穿过圆的直线与圆相交的两个点

在OpenCV中,没有直接的函数来计算直线与圆的交点,但可以通过数学方法来实现这一功能。:使用直线上的两个点P1x1y1和P2x2y2来确定直线的斜率m和截距b。直线方程可以表示为ymxb。:将直线方程ymxb代入圆的方程x−cx2y−cy2r2。:将上述方程转换为关于x的二次方程,然后使用求根公式求解。:对于二次方程的每个根,计算相应的y值,得到交点的坐标。

2024-07-13 23:33:36 943

原创 LLM 合成数据生成完整指南

使用 LLM 进行综合数据生成需要利用这些先进的 AI 模型来创建模拟真实世界数据的人工数据集。这种方法有几个优点:1.1.灵活性:生成合成数据通常比收集和注释真实世界数据更便宜。1.2.隐私保护:可以在不暴露敏感信息的情况下创建合成数据。1.3.可扩展性: 大型语言模型(LLMs)可以快速生成大量多样化的数据。1.4.定制:数据可以根据特定用例或场景进行定制。这个简单的例子展示了如何使用 LLM 生成合成客户评论。然而,LLM 驱动的合成数据生成的真正威力在于更复杂的技术和应用。

2024-07-11 15:37:58 1082

原创 开发情绪识别人工智能时的道德考量

情绪识别人工智能是一种机器学习模型。它通常依赖于计算机视觉技术,捕捉和分析面部表情,以解读图像和视频中的情绪。然而,它也可以对音频片段进行操作,以确定语音或书面文字的语调,以评估语言的情感。这种算法代表了人工智能领域的一项令人着迷的进步,因为到目前为止,模型还无法理解人类的情感。虽然像 ChatGPT 这样的大型语言模型可以令人信服地模拟情绪和角色,但它们只能将单词逻辑地串联在一起——它们无法感受到任何东西,也无法表现出情商。虽然情绪识别模型无法产生情感,但它仍然可以检测和分类情感。

2024-07-11 11:34:11 999

原创 HumanoidBench——模拟仿人机器人算法有未来

仿人机器人有望无缝融入我们的日常生活。然而,它们的控制装置是为特定任务手动设计的,而新任务则需要大量的工程设计工作。为了解决这个问题,我们开发了一个名为 HumanoidBench 的基准,以促进仿人机器人的学习。这涉及一系列挑战,包括复杂的控制、身体协调和长期任务。该平台为测试机器人学习算法提供了一个安全、廉价的环境,并包含与人类日常任务相关的各种任务。HumanoidBench 可以轻松纳入各种仿人机器人和末端执行器、15 项全身操纵任务和 12 项运动任务。

2024-07-09 19:35:33 1504

原创 ScreenAI ——能理解从信息图表到用户界面的图像和文本算法解析

本文介绍了 ScreenAI 模型和一种新的统一模式,用于表示与信息图表、文档图像和不同用户界面兼容的复杂数据和视觉信息。通过这种统一的表示方法,可以设计出利用所有这些领域数据的自监督学习任务组合。我们还表明,在这种组合中进行的学习可以积极迁移到与屏幕相关的任务、信息图表和文档相关的任务中。此外,我们还展示了使用大规模语言模型生成数据的影响,并通过消除研究证明了模型设计选择的合理性。应用这些技术学习的模型在许多公共基准测试中实现了 SoTA 和具有竞争力的性能。

2024-07-08 23:56:20 1311

原创 ExtruOnt——为工业 4.0 系统描述制造机械类型的本体

被称为第四次工业革命(工业 4.0)的制造业出现了各种倡议和战略。这些举措旨在收集有关产品历史、状况、质量和特性的数据,并应用制造智能来利用这些数据。这为制造商创造了重要的商机。要正确设计和实施这些举措,就必须在机电一体化、制造战略、知识型员工以及建模、模拟和预测方法与工具的使用方面做出创新努力。特别是从建模的角度来看,我们发现缺乏对可访问、可互操作和可重复使用的制造机器的适当描述。因此,作者开发了本体 ExtruOnt,详细描述了一种名为挤压机的真实制造机器类型。

2024-07-07 17:13:50 1132

原创 VideoAgent——使用大规模语言模型作为代理来理解长视频

理解长视频需要能够处理各种信息并有效推理长序列的模型。现有的尝试发现,要建立能满足所有这些要求的模型非常困难。目前的大规模语言模型适合处理长语境,但不足以处理视觉信息。另一方面,视觉语言模型被认为难以处理长视觉输入。我们的系统模仿了视频理解过程,侧重于推理能力而不是处理长视觉输入;VideoAgent 比现有方法更有效、更高效,是长视频理解领域的一大进步。

2024-07-06 21:28:17 1064

原创 Gemma2——Google 新开源大型语言模型完整应用指南

以前代产品为基础,提供增强的性能和效率,以及一系列创新功能,使其在研究和实际应用中都具有特别的吸引力。Gemma 2 的与众不同之处在于,它能够提供与更大的专有模型相当的性能,但其软件包专为更广泛的可访问性和在更适中的硬件设置上使用而设计。随着深入研究 Gemma 2 的技术规格和架构,越来越被其设计的精妙之处所折服。该模型采用了多种先进技术,包括新颖的注意力机制和创新的训练稳定性方法,这些都为其卓越的性能做出了贡献。在本综合指南中,将深入探索 Gemma 2,研究其架构、主要功能和实际应用。

2024-07-06 16:37:18 1411

原创 TransformCode——代码嵌入综合指南

探索代码嵌入在 AI 辅助编程中的变革力量。了解如何将代码片段表示为密集向量,从而捕获语义和功能关系。这篇博客文章深入探讨了什么是代码嵌入、如何创建代码嵌入以及它们在代码搜索、完成、错误检测等方面的应用。探索生成代码嵌入的各种方法,包括基于标记、基于树和基于图形的方法。此外,深入了解用于无监督学习代码嵌入的高级框架(如 TransformCode)及其彻底改变软件工程任务的潜力。

2024-07-05 23:16:14 538

原创 探索人工智能在电子商务平台与游戏发行商竞争中几种应用方式

在游戏等某些领域,人工智能可以成为一种民主化因素——使新兴的、高潜力的平台能够与老牌巨头竞争。话虽如此,要充分发挥其潜力,并不只是简单地为了整合人工智能而整合它,而是要正确地去做。对于无法负担内部 AI 专家团队的小型企业来说,一个可行的解决方案是利用现有的第三方软件。即使不是 AI 专家,普通开发人员也可以使用其中一些现成的解决方案。

2024-07-05 12:47:57 875

原创 深度学习——深度学习中感受野的计算

在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上每个像素点在原始图像上映射的区域大小,这里的原始图像是指网络的输入图像,是经过预处理(如resize,warp,crop)后的图像。神经元之所以无法对原始图像的所有信息进行感知,是因为在卷积神经网络中普遍使用卷积层和pooling层,在层与层之间均为局部连接。神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;

2024-07-04 23:59:17 998

原创 LLM4Decompile——专门用于反编译的大规模语言模型

LLM4Decompile 是一项致力于反编译程序的开创性举措。首先,在构建预训练数据时,它以一百万个名为 Anghabench 的公开可编译 C 文件为基础。利用这一丰富的数据集创建汇编代码和源代码对。具体来说,首先将源代码转换为二进制对象文件,然后将其反汇编为汇编代码,并与 x86 Linux 平台上的源代码配对。它还考虑了程序员为优化执行性能而使用的各种编译器优化标志。优化过程是一种将源代码转换为更快、更高效的机器代码的技术。

2024-07-04 14:01:30 1180

原创 VideoPrism——探索视频分析领域模型的算法与应用

本文介绍的 VideoPrism 是一种基本的视频编码器,可在视频理解领域实现最先进的技术。它专注于数据和建模方法,建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比,它在各种基准测试中取得了最佳性能,并显示出极高的泛化能力。视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全,并实现反应更灵敏的互动系统。然而,在现实世界中使用这些模型之前,还必须采取措施防止潜在的偏见和滥用。

2024-07-03 22:58:29 1073 1

原创 VoiceCraft—— 业界最高水平的自然语音合成语言模型

随着VoiceCraft代码和模型的公开,预计将进一步改进模型性能,并在 VoiceCraft 的基础上开发创新模型。另一方面,滥用的风险也不容忽视,例如通过伪造语音进行欺诈。毕竟,当你听到 VoiceCraft 生成的声音时,你无法将其与当事人(输入声音的所有者)的声音区分开来。因此,人们担心欺诈案件的数量会增加,例如,某人 “伪装成本人,要求亲属将钱转入其账户”。

2024-07-03 15:39:21 983

原创 基于大语言模型建模改变法律服务是否在速度和准确性上超越人类?

论文表明,大规模语言模型可以像外包法律从业人员(LPO)和初级律师一样准确地识别合同中的法律问题。尤其值得注意的是大规模语言模型在合同审查中的速度。大规模语言模型的计算效率使其具有比人类从业人员更快地处理和分析文本的显著优势。这种速度有可能显著提高合同审查的效率和响应时间。成本分析也证实,与初级律师和 LPO 相比,大规模语言模型为合同审查提供了成本更低的选择。对于希望简化合同审核流程的法律从业人员和律师事务所来说,高准确性、快速处理速度和低成本使大型语言模型成为一个极具吸引力的选择。

2024-07-03 10:45:59 899

原创 探索大型语言模型自动评估 LLM 输出长句准确性的方法

这篇论文是关于谷歌DeepMind的,提出了新的数据集、评估方法和衡量标准,用于对 LLM 长式事实性(长式事实性)和信息准确性进行基准测试。换句话说,这项研究可用于自动评估 LLM 输出的长式信息的准确性,并为 LLM 的未来发展提供参考。

2024-07-02 12:41:42 1133

原创 Mustango——音乐领域知识生成模型探索

本文介绍了对使用音乐领域知识的音乐生成人工智能 Mustango 的研究。这项研究的局限性之一是,由于计算资源的限制,目前的 Mustango 最多只能生成 10 秒钟的音乐。他们还说,目前的 Mustango 主要只能处理西方的音乐形式,在创作其他文化的音乐方面能力较弱。因此,作为未来的研究,他们计划 “生成时间更长的音乐”,并 “将其应用于更多样化的音乐流派,例如处理非西方音乐”。虽然 Mustango 在许多指标上都达到了 SOTA,但我感觉它在某些方面的性能仍然不如其他型号。

2024-07-01 23:03:46 1271

原创 人工智能——常用数学基础之线代中的矩阵

对于矩阵C中的每个元素C[i][j],计算它是矩阵A的第i行与矩阵B的第j列的对应元素乘积之和。即,C[i][j] = A[i][k1] * B[k1][j] + A[i][k2] * B[k2][j] + …例如,在矩阵A中,第i行第j列的元素可以表示为A[i][j]。:矩阵是数值的矩形阵列,通过特定的运算规则(如矩阵乘法),在数学、科学及工程领域中实现数据变换和问题解决的关键工具。:神经网络中的权重和偏置通常被表示为矩阵,通过矩阵乘法和激活函数的组合实现输入数据的非线性变换和特征提取。

2024-07-01 22:37:19 472

原创 探索ChatGPT是如何改变癌症护理

以 ChatGPT 为例,生成式 AI 被整合到癌症治疗中,代表着医疗保健领域的一次变革性飞跃。通过利用先进的 AI 技术,Color Health 和 OpenAI 正在开发可显著提高诊断准确性和治疗效率的工具。副驾驶模型采用医生在环方法,确保 AI 能够增强人类的专业知识而不是取代它,从而保持关键监督并改善患者治疗效果。随着这项技术在临床环境中接受严格评估,其改变癌症治疗的潜力变得越来越明显。

2024-06-30 17:30:00 1120 1

原创 揭开大语言模型(LLM)内部运作的算法逻辑

Anthropic 在提高大型语言模型 (LLM) 透明度方面取得的突破是理解人工智能的重要一步。通过揭示这些模型的工作原理,Anthropic 正在帮助解决人们对其安全性和可靠性的担忧。然而,这一进展也带来了新的挑战和风险,需要认真思考。随着人工智能技术的进步,在透明度和安全性之间找到适当的平衡对于负责任地利用其优势至关重要。

2024-06-30 12:46:48 738

原创 生成式人工智能和机器人技术是否即将取得最后的突破?

了解生成式人工智能与机器人技术的融合如何彻底改变从医疗保健到娱乐等行业想象一下这样一个世界,机器人可以谱写交响乐、画出杰作、写出小说。这种创造力与自动化的迷人融合,由 生成式人工智能,不再是梦想;它正在以重大方式重塑我们的未来。生成式人工智能和机器人技术的融合正在引发范式转变,有可能改变从医疗保健到娱乐等各个行业,从根本上改变我们与机器的互动方式。人们对这一领域的兴趣正在迅速增长。大学、研究实验室和科技巨头正在为生成式人工智能和机器人技术投入大量资源。随着研究的增加,投资也大幅增加。

2024-06-29 21:30:17 1072

原创 数字人解决方案——数字人类不仅仅是长着一张脸的人工智能

数字人类曾经是简单的聊天机器人,经常误解问题,这让许多人感到沮丧。现在,他们已经发展成为先进的虚拟代理,可以像最好的客户服务代表一样有效地沟通,拥有专家级的知识,并且看起来与真人惊人地相似。这些先进的数字生物所做的不仅仅是为客户服务添加一个面孔;它们正在彻底改变我们思考和使用人工智能的方式。他们正在承担过去只能由人类完成的复杂任务,从处理客户查询到执行专门的后端操作。让我们深入了解数字人类如何重塑我们在日常生活中与技术的互动。

2024-06-29 15:19:37 1065

原创 探索人工智能和LLM对未来就业的影响

近年来,人工智能(AI)迅猛发展,引发了人们的兴奋,同时也引发了人们对就业未来的担忧。大型语言模型(LLM)就是最新的例子。这些强大的人工智能子集经过大量文本数据的训练,以理解和生成类人语言。根据一个由于人工智能的兴起,其全球 55% 的会员的工作可能会经历一定程度的变化。了解人工智能和LLM将如何扰乱就业市场对于企业和员工适应变化并在快速发展的技术环境中保持竞争力至关重要。本文探讨了人工智能对就业的影响以及劳动力自动化将如何扰乱就业。

2024-06-29 14:52:57 917 2

原创 LLaVA-UHD——感知任何长宽比和高分辨率图像的 LMM

在本文中,我们讨论了 LLaVA-UHD,这是一种新颖的方法,首先以 LLaVA-1.5 和 GPT-4V 框架为代表,并试图揭露其视觉编码策略中根源的系统缺陷。LLaVA-UHD 框架是一种多模式模式,是应对这些挑战的尝试。LLaVA-UHD 框架可以感知高分辨率和任何长宽比的图像。LLaVA-UHD 框架围绕三个关键组件构建。首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以试图提高效率并扩展编码。接下来,压缩模块进一步压缩视觉编码器生成的图像标记。

2024-06-28 23:28:01 849

原创 OpenCV图像处理——cv::Mat的位操作示例

在OpenCV中,cv::Mat 类提供了许多位操作功能,允许你执行像素级的位操作,如与、或、非、异或等。

2024-06-27 11:07:33 304

原创 如何阅读一篇学术论文

这有助于巩固对论文的整体理解,并弄清主要的研究进展和结论,但可以跳过公式和不熟悉的术语。通过这种深入但有计划的阅读方式,就可以更好地理解论文的核心内容,并且在阅读过程中逐渐消化和吸收其中的知识。和第一遍阅读一样,不要立刻深入核心内容,而是要充分了解论文的背景和研究出发点,包括其研究背景、方法和实验结果。更实用的方法是首先理解论文的研究背景,关注论文的「标题」、「摘要」和「结论」这三个关键部分。论文的格式实际上常常遵循着固定的结构,这种结构有助于作者整理思路,同时也帮助读者快速定位论文的要点和创新之处。

2024-06-25 21:33:46 311

原创 计算机视觉——OpenCV C++实现凸包

在图像中发现和分析形式是解决大多数计算机视觉问题的技巧之一,获取轮廓是其中之一。对于新手来说,我会将轮廓描述为“仅仅是一条连接所有位于形状边缘上的点的曲线。假设我有下面这张手的图像,手的轮廓由绿线表示。红点代表我们将连接起来形成轮廓曲线的点。我对轮廓的高级数学课程记忆犹新。然而,由于老师从未强调过轮廓在现实世界中的应用,所以很难理解这个主题的重要性。今天,我发现它在计算机视觉中的重要性。什么是凸包?一个没有大于180度的内角的物品被称为凸形的。非凸形或凹形是指不是凸形的形状。

2024-06-25 16:19:07 1181

原创 SF-YOLOv5——基于改进的特征融合模式的轻量级小目标检测算法

图像首先通过输入层(input)进行处理,然后被发送到主干网络进行特征提取。主干网络获取不同尺寸的特征图,并通过特征融合网络(neck)将这些特征进行融合,最终生成三个特征图P3、P4和P5(在YOLOv5中,这些尺寸分别表示为80×80、40×40和20×20),用于分别检测图像中的小型、中型和大型物体。

2024-06-25 15:50:28 1013

原创 Stable Diffusion——SDXL 1.0原理解析

SDXL 1.0是Stability AI推出的新基础模型,作为Stable Diffusion的大幅改进版本,它是一个用于文本到图像合成的潜在扩散模型(LDM)。作为Stable Diffusion的最新进化,它正在超越其前身,并与MidjourneySOTA图像生成器相媲美的图像。这些改进源于一系列有意识的设计选择,包括一个3倍大的UNet骨干网络,更强大的预训练文本编码器,以及引入了一个单独的基于扩散的精炼模型。精炼模型使用SDEdit首次提出的后处理图像到图像扩散技术,提高了样本的视觉保真度。

2024-06-25 15:41:22 876

原创 探索约束LLM输出JSON的应用

JSON(JavaScript Object Notation)因其简洁、易读和易于解析的特性,已成为全球使用最广泛的数据交换格式之一。它能够满足各种数据交换需求,特别是在构建人工智能驱动的应用程序时,工程师们经常需要将大型语言模型(LLM)的输出整合到他们的代码库中。通过向LLM指定特定的语法或模式,并指导其生成符合这些规范的结果,可以提高应用程序的可预测性和稳定性。这种标准化的输出方式,使得应用程序能够更加高效地处理和利用由LLM生成的数据。

2024-06-24 19:17:54 944

yolov5-v7.0河道漂浮物检测.rar

河流作为水环境中的重要组成部分,在供给水源、维持生态、美化景观等诸多方面扮演着不可或缺的角色。但是,目前人类活动和自然因素导致河面频繁出现大量漂浮物,严重破坏了河道景观和水生态环境,已成为河道监管中重点关注的问题。在国内各省市全面推行落实“河长制”政策的背景下,很多地方开始采用摄像头进行河湖可视化监管以促进河湖面貌改善,但是人工参与程度依然较高,单纯依靠人力观看大量的监控资料来判断河湖状况。在这种情况下,推动当前河道视频分析的智能化与无人化已成为河流长效管护的迫切需求。但是,河流环境本身复杂多样,例如,河流结构性差、易受动态光影和水波扰动等噪声的影响,现有的视觉方法应用至水面漂浮物监测任务中仍存在一些问题需要解决。围绕上述需求及难点,本文开展了基于视觉分析的河道漂浮物检测与跟踪方法研究,并进行了实验应用。使用的算法是yolov5 v7.0这个版本,里面包含了5000多张已经标注好的数据集,下载之后直接训练就可以,算法训练可参考:https://blog.csdn.net/matt45m/article/details/138141616?spm=1001.2014.3001.5502

2024-04-24

YOLOv8与DeepSORT实现目标追踪

YOLOv8是一种基于图像全局信息进行预测并且它是一种端到端的目标检测系统,最初的YOLO模型由Joseph Redmon和Ali Farhadi于2015年提出,并随后进行了多次改进和迭代,产生了一系列不同版本的YOLO模型,如YOLOv2、YOLOv3、YOLOv4,YOLOv5等。这些更新和迭代旨在提高模型的性能、精度和速度,使其在实际应用中更具竞争力。 YOLOv8的核心思想是将图像划分为网格,并在每个网格单元中预测物体的边界框和类别。这种设计使得YOLO非常适合实时目标检测应用,因为它可以在较短的时间内完成目标检测任务。 多目标跟踪往往面临一些挑战,例如需要同时跟踪多个目标、目标可能频繁遮挡,这些因素使得目标跟丢成为一个常见问题。为了解决这些问题,可以借助跟踪器 DeepSORT 以及检测器 YOLO v8,从而构建一个高性能的实时多目标跟踪模型。 参考博客:https://blog.csdn.net/matt45m/article/details/134237238#comments_32297294

2024-04-18

手机目标检测数据集.rar

这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。数据集下载之后就可以直接使用。

2024-04-14

标注扑克牌目标识别数据集

这是一个检测扑克牌种类的数据集,检测种类目前只有6种,分别是 ``` "queen", "ten", "nine", "king", "jack", "ace" ``` 数据集共含有363张图片,标注的工具是labelimg,数据标签是xml。

2024-04-13

实时语义分割ENet算法Pytorch复现与模型训练

ENet架构是专为语义分割而设计的。与成熟的深度学习工作站相比,主要目标是有效利用嵌入式平台上可用的稀缺资源。Enet工作在完成此任务方面取得了很大的收获,与此同时,匹配并有时超过了现有的baseline,这些baseline对计算和内存的要求更高。ENet在NVIDIA TX1硬件上的应用体现了实时便携式嵌入式解决方案。即使主要目标是在移动设备上运行网络,它在NVIDIA Titan X等高端GPU上也非常有效。在需要处理大量高分辨率图像的数据中心应用中,这可能被证明是有用的。ENet允许以更快,更高效的方式执行大规模计算,这可能会节省大量资金。 资源是对论文的复现,可用于时实语义分割,转了模型之后可以部署在边缘设备上,关于算法的应用与理解可以参考个人的博客。里面有详细的介绍与训练方向。

2024-04-10

基于深度学习实现的复杂背景文档二值化的算法实现

阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。 在这里将探讨如何通过使用基于卷积神经网络(CNN)的U-Net架构训练的模型进行分类,来实现具有不同类型问题的文档二值化。CNN的典型用途在于分类任务,其中对图像的输出是一个单一的类别标签。然而,在许多视觉任务中,期望的结果不仅包括图像中物体是否存在,还包括其定位,即每个像素都应该被分配到一个类别标签。

2024-04-10

夜晚图像雾霾图像增强C++/python部署

在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,我们提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。我们的框架在渲染图像上进行训练,实现了光晕的抑制。此外,我们还利用梯度自适应卷积来捕捉雾霾场景中的边缘和纹理。通过提取的边缘和纹理,我们在不丢失重要结构细节的情况下增强了场景的对比度。为了提升低光强度,我们的网络学习了一个注意力图,然后通过伽马校正进行调整。这个注意力图在低光区域有较高的值,在雾霾和光晕区域有较低的值。通过在真实的夜间雾霾图像上进行广泛的评估,我们的方法证明了其有效性。

2024-04-10

基于NCNN轻量级PaddleOCRv4模型C++推理

PaddleOCR 提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的 PP-OCR 算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里,PP-OCR 的累计 Star 数已经超过了32.2k,常常出现在 GitHub Trending 和 Paperswithcode 的日榜和月榜第一位,被认为是当前OCR领域最热门的仓库之一。 PaddleOCR 最初主打的 PP-OCR 系列模型在去年五月份推出了 v3 版本。最近,飞桨 AI 套件团队对 PP-OCRv3 进行了全面改进,推出了重大更新版本 PP-OCRv4。这个新版本预计带来了更先进的技术、更高的性能和更广泛的适用性,将进一步推动OCR技术在各个领域的应用。 参考博客:https://blog.csdn.net/matt45m/article/details/134713935#comments_32019413

2024-04-02

检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)

图像里面的线段测量,首先要理解“每度量比的像素”(pixels per metric ratio),它类似于比例尺,通过已知图像上一个对象的尺寸和该对象在图像中所占像素的数量,可以得到一个比例关系,从而可以将其他物体的像素转换为实际度量单位(如厘米、毫米等)。 关键属性包括: 已知长度:需要知道图像中一个物体的实际长度,通常是以某种可测量的单位(例如毫米、英寸等)来表示。 像素数量:该已知长度物体在图像中所占据的像素数。这可以通过在图像中测量该物体的像素宽度或高度来获取。 有了这两个属性,就可以计算出每个度量单位所对应的像素数。这个比例关系将图像中的像素转换为实际的度量单位,从而可以测量其他物体的大小或长度。

2024-03-29

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

Ultralytics YOLOv8是一种前沿的、最先进的(SOTA)模型,它在前代YOLO版本的成功基础上进行了进一步的创新,引入了全新的特性和改进,以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计,YOLOv8在广泛的领域中,包括目标检测与跟踪、实例分割、图像分类以及姿势估计等任务中,都表现出色。实例分割在物体检测的基础上迈出了更进一步的步伐,它不仅可以识别图像中的单个物体,还能够精确地将这些物体从图像的其他部分中分割出来。这是一个集成了YoloV8目标检测、实例分割、姿态估计与目标追踪的项目,界面是用PyQt5写的,可以读入图像,视频与摄像头。可用于对比与参考这几个算法的差异与如何部署。关于源码的运行与部署可以参考博客《YOLOv8项目解析——一文搞定目标检测、语义分割、状态估计、目标追踪算法原理与模型部署》,博客地址:http://t.csdnimg.cn/PbVNu

2024-03-26

图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)

二分图像分割(DIS),旨在从自然图像中分割高精度的对象。为此,我们收集了第一个大规模DIS数据集,称为DIS5K,其中包含5470张高分辨率(例如2K、4K或更大)图像,涵盖各种背景中的伪装、突出或精细物体。DIS使用极细粒度的标签进行注释。此外,我们还引入了一个简单的中间监督基线(IS-Net),使用特征级和掩码级指导进行DIS模型训练。IS-Net在建议的DIS5K上优于各种前沿基线,使其成为一个通用的自学习监控网络,可以促进DIS的未来研究。此外,我们设计了一个新的度量,称为人类校正努力(HCE),它近似于纠正假阳性和假阴性所需的鼠标点击操作数。HCE用于测量模型和实际应用程序之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16种具有代表性的分割模型,对对象的复杂性进行了更深入的讨论,并展示了几种潜在的应用(例如背景去除、艺术设计、三维重建)。希望这些努力能为学术界和工业界开辟有希望的方向。

2024-03-24

百度人像抠图C++模型部署完整包

PP-HumanSeg v2人像分割方案是一项重要的突破,采用了深度学习技术,以96.63%的mIoU精度和仅15.86ms的推理耗时,在人像分割领域刷新了SOTA指标。该方案不仅支持商业应用,而且可零成本、开箱即用。 相比于之前的版本,PP-HumanSeg v2在推理速度和精度上都有显著提升,肖像分割模型推理速度提升45.5%,mIoU精度提升3.03%。通用人像分割模型推理速度提升5.7%,mIoU精度提升6.5%。 通过以上优化措施,PaddleSeg的肖像分割模型在保证分割精度的情况下,大幅减少了参数量,提高了模型的轻量化程度,并且通过全局上下文信息的汇集和特征融合,进一步提升了模型的语义理解能力和分割效果。

2024-03-23

人像自动抠图LFM训练代码与C++推理部署代码

图像抠图(Image Matting)是一个在工业界和视觉研究领域都非常重要的研究课题。从 2000 年开始,对图像抠图及相关研究问题进行了大量研究,产生了一系列对计算机视觉和计算机图形学研究都有深远影响的工作,例如 GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting 等。在好莱坞的动作大片、迪士尼的动画巨作、Office 以及 Adobe Photoshop 的一些功能中都能看到抠图算法的应用。 解决抠图问题需要我们分别求解出图像的前景、背景和 alpha matte。Alpha matte 即我们常说的 alpha 通道,基于 alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此,alpha matte 是和原图同大小的一个单通道图像,每个像素都对应于原 RGB 图像相同位置像素的 alpha 值。关于算法解析与实现具体步骤可看我的博客《人像抠图PP-Matting——支持多场景精细化高精度人像抠图(C++模型推理)》

2024-03-22

PP-Matting高精度抠图模型C++推理

PP-Matting是PaddleSeg自研的高精度抠图模型,通过引导流设计实现语义引导下高分辨率图像抠图。 追求更高精度,推荐使用该模型。且该模型提供了512和1024两个分辨率级别的预训练模型。 PP-MattingV2是PaddleSeg自研的轻量级抠图SOTA模型,通过双层金字塔池化及空间注意力提取高级语义信息,并利用多级特征融合机制兼顾语义和细节的预测。 对比MODNet模型推理速度提升44.6%, 误差平均相对减小17.91%。追求更高速度,推荐使用该模型。

2024-03-21

离线语音识别C++实现

这是一个语音识别的C++实现的demo,使用的IDE是vs2019,压缩包里面包含了所有用到的依赖,下载之后解压配置包含目录,库目录,附加依赖项,就可以运行出效果。

2024-03-20

SadTalker语音驱动肖像图像数字人源码与模型

SadTalker 模型在三维运动场中学习如何从音频中生成3DMM的3D运动系数,包括头部姿势和表情,并利用全新的3D面部渲染器来生成自然的头部运动。 为了学习真实的运动系数,研究人员将音频和不同类型的运动系数之间的联系进行了显式建模。他们设计了蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情。同时,他们还设计了条件VAE,即 PoseVAE,用于合成不同风格的头部运动。最后,他们将生成的三维运动系数映射到人脸渲染的无监督三维关键点空间,并合成最终的视频。 在实验中,研究人员证明了 SadTalker 模型在运动同步和视频质量方面实现了最先进的性能,为通过人脸图像和语音音频生成会说话的人物头像视频提供了一种有效的方法。 参考博客《数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署》 博客链接:https://blog.csdn.net/matt45m/article/details/13676466

2024-03-18

Wav2lip 语音驱动Ai数字人源码与模型

传统的基于像素的人脸重建损失无法有效约束音频-口型同步。由于面部重建损失是整个图像的计算结果,而唇部区域只占图像的很小一部分,因此无法充分关注唇部细节。此外,在人脸重建的训练过程中,对口型的优化往往在训练的中后期才开始,导致前期监督信息不足。 传统的基于GAN的判别器在音频-口型同步检测方面准确率较低。这些判别器通常只使用单帧图像来评估口型同步,缺乏时间上下文信息,因此无法有效评估口型动态变化的质量。此外,生成过程中可能出现伪影,导致GAN判别器更容易关注视觉伪影而忽略音频和口型的对应关系。 为了解决以上问题,wav2lip提出了一个专家口型同步判别器,该判别器在真实视频中进行预训练,并包含多帧信息,可用于判断音频和口型是否同步。实验证明,相比于基于像素的人脸重建方法,这个专家判别器在口型同步判别任务上更为准确。在训练阶段,该专家判别器保持冻结状态,以确保其判断结果不受伪影的干扰。 参考博客:《数字人解决方案——Wav2lip语音驱动唇部动作的技术原理(附整合包下载)》

2024-03-16

用于边缘检测的轻量级密集神经网络C++推理

LDC 是一种基于 CNN 的边缘检测模型,与参数小于100万的轻量级模型相比,LDC生成了薄边缘图并取得了最高分数(即ODS),与参数约为3500万的重型体系结构相比,性能相似。LDC提供了使用不同边缘检测数据集的定量和定性结果,并与现有技术模型进行了比较。所提出的LDC不使用预训练的权重,需要直接的超参数设置。

2024-03-10

P2PNet密集人流统计C++实现

P2PNet提出了一个新的度量标准,称为密度归一化平均精度(nAP),以提供更全面和更精确的性能评估。腾讯优图团队在这个框架下设计了一个直观的解决方案,称为P2PNet,并且实现了state-of-the-art。 P2PNet忽略了所有冗余步骤,直接预测一系列人头点的集合来定位图像中的人群个体,这完全与真实人工标注保持一致。通过深入分析,研究者发现实现该方法的一个核心策略是为预测候选点分配最优的学习目标,并通过基于匈牙利算法的一对一匹配策略来完成了这一关键步骤。实验证明,P2PNet不光在人群计数基准上显著超越了已有SOTA方法,还实现了非常高的定位精度。

2024-03-09

C++实现AES256加密

AES是用来替代DES的新一代加密标准,具有128bit的分组长度,支持128、192和256比特的密钥长度,它是目前最流行的加密算法之一。

2024-03-09

视频一键祛水印/视频目标移除

ProPainter它融合了图像和特征修复的优势,以及高效的Transformer技术,旨在提供高质量的视频修复效果,同时保持高效性。 ProPainter包含以下功能: 1. 对象去除:能够轻松去除视频中的不需要的对象。 2. 水印删除:可用于删除视频中的水印,提高视觉质量。 3. 视频内容完整性修复:能够修复损坏的视频内容,使其看起来 完整和连贯。 项目整合了Segment-and-Track Anything与ProPainter实现视频一键目标移除与一键祛除水印,这是一个安装包,下载之后直接运行脚本就可以。

2023-10-23

一键提取视频语音并转文本带UI界面

对于不是视频编辑专业人员,处理起来还是比较麻烦的,但网上也有好多可以用的小工具,这些工具大多数都标榜有自己技术和模型,但都是在线模型或者使用过一段时间之后就无法再使用了,这些工具实际上都是基于一些大公司提供的接口衍生出来的AI工具,使用效果也不错。但在处理的过程中,处理的文件要上传到大公司的服务器进行处理,这里可能会涉及到一些数据的安全问题。这些数据很大一部分有可能会涉及到数据泄露与安全的问题。 这个项目的核心算法是基于PaddlePaddle的语音识别加Python实现,使用的模型可以有自己训练,支持本地部署,支持GPU与CPU推理两种文案,可以处理短语音识别、长语音识别、实现输入的语音识别。

2023-09-30

实现视频目标移除/视频水印移除/视频掩码补全/视频外扩等多个实用功能

视频修复(Video Inpainting)是指通过填补缺失区域或去除不需要的内容,修复视频中的损坏或缺失部分的任务。视频修复可以分为对象移除和对象补全两个方面。对象移除是将视频中的不需要的对象从视频中删除,对象补全是填补视频中缺失的区域。 视频修复算法可以基于传统方法或深度学习方法。传统方法使用纹理合成技术,从周围的帧中复制纹理来填补缺失区域。深度学习方法使用生成对抗网络(GAN)、变分自编码器(VAE)或Transformer等架构,学习从输入视频中生成缺失区域的映射关系。 视频修复在电影制作、视频编辑、监控视频修复等领域有广泛应用。它可以提高观看体验,也可以应用于视频分析和计算机视觉任务中。

2023-09-30

语义分割实现人脸图像的皱纹检测定位与分割数据集

人脸皱纹主要区分有额纹、川字纹、眼下纹、法令纹、嘴角纹,眼角纹等,在美颜相机,智能医美等于应用领域里,需要对人脸皱纹进行检测、定位、分割,测量等。

2023-09-13

开放世界万物识别模型推理C++代码,目前可以识别的目标有2万1000多种

- Detic采用了一种完全不同的方法,它选择了覆盖整个图像的最大面积提议(通常几乎包括整张图片)。 - 然后,Detic将整个图像的类别标签分配给这个最大面积的提议。 - 这种方法的关键在于,Detic不再依赖于传统的proposal级别的标签分配,而是将整个图像视为一个整体,并为其分配类别标签。 - 这种做法消除了传统方法中可能导致误差的标签和bbox分配过程,简化了训练流程,提高了性能,特别是在检测新颖类别时。 Detic方法通过选择整个图像的最大提议并将整个图像的类别标签分配给它,从而消除了传统方法中可能出现的标签和bbox分配误差。这种简化和创新的方法有望提高目标检测的性能和鲁棒性,特别是在具有挑战性的场景中。

2023-09-13

基于yoloV5的x下光危险物物品识别推理代码带UI界面

1.识别的目标是分别是有:'lighter','scissors','powerbank','pressure','knife','zippooil','handcuffs','slingshot','firecrackers','nailpolish'。 2.违禁品中有要检测的危险品是小巧的打火机,考虑到其在复杂拥挤环境中的易遮挡性,有时候是很难精确检测到的,我这个用的是S模型,检测效果还可以,如果对精度有更高的要求,除了加大训练数据之外还可以选择更大的模型或者使用YOLOv8。 3.在安检这个场景中,出现漏检要比出现错检所触发的问题更严重,为了优化漏检率,可以适当放大置信度和加入一些相近的样本,还有场景负样本。

2023-08-06

实时对话数字人解决方案实现源码

​ 1.这是一个能实时对话的虚拟数字人demo,使用的是NeRF(Neural Radiance Fields 2.文本转语音是用了VITS语音合成 3.语言模型是用了新开源的ChatGLM2-6B,当前的项目暂时没有加上这个接口 4.声音克隆用的是PaddleSpeech,这个语音克隆训练起来很快,使用的数据集也相对少一些,当前的项目暂时没有加上语音克隆。 ​

2023-07-22

最强伴奏人声提取工具开源免费

一键安装,直接使用!Ultimate Vocal Remover UVR5,最强人声伴奏提取工具,可以提取音频或者视频里面的人声与伴奏,直接安装,不需要额外的依赖,支持CPU和GPU,处理速度快,提取效果完美,无任何限制。

2023-07-10

智能黑白图像自动上色C++源码

这是黑白图像自动上色的C++源码,IDE是Vs2019,依赖OpenCV和ncnn,所有的依赖都包含在里面了,下载之后,把依赖添加到环境就可以运行。

2023-01-08

烟火检测标注好的数据集

1.烟火检测数据集,xml格式,总共有2000多张图像。 2.可以用来训练目标检测。 3.参考博客:https://mp.csdn.net/mp_blog/creation/success/123366835

2022-11-01

人脸比对与人脸识别C++代码与模型

1.使用C++与opencv实现了人脸检测与人脸对比。 2.项目是好vs2019的工程,项目所有依赖都在里面,下载之后要配置include和lib路径。 3.项目可以支持GPU推理。 4.点开我的博客,可以找到实现的相关步骤与源码配置方法。

2022-10-26

高清视频与图像人像抠图

RobustVideoMatting是来自字节跳动视频人像抠图算法(RVM),专为稳定人物视频抠像设计。 不同于现有神经网络将每一帧作为单独图片处理,RVM 使用循环神经网络,在处理视频流时有时间记忆。RVM 可在任意视频上做实时高清人像抠图。

2022-10-25

OpenCV视频人脸自动打码

1.基于OpenCV和C++实现的视频人脸自动打码功能。 2.工程是Vs2019工程,所有的依赖都在工程里面。 3.下载之后不会配置工程的可以跳转到相关博客对着配置就可以。

2022-10-23

Yolov7目标检测与实例分割的C++推理代码

1.Yolov7目标检测与实例分割的C++推理代码, 2.开发环境,开发环境是win10,OpenCV4.5,NCNN,IDE 是Vs2019。 3.关于源码配置可以看我的博客,有详细的步骤。

2022-10-19

目标识别与区域入侵检测

1.区域入侵检测是通过识别目标之后或者目标坐标位置,判断目标坐标是否在所规定的区域内出现,使用在电子围栏,不安全区域入侵检测,智慧城市,安防监控等领域。 2.这里的编译环境是Win 10, vs2019,OpenCV4.5, 目标检测算法用的yolov5,实现语言使用的语言是C++。 3.算法实现与项目配置可以参数我的博客:基于目标识别的区域入侵检测——C++实现从获取区域到检测入侵目标

2022-07-11

安全帽头盔佩戴检测识别

1.检测与识别当前的人是否佩戴了安全帽 2.C++ 源码与模型部署。 3.下载之后可以使用vs2019直接运行。 4.包含了所有用到的依赖库。 5.参考博文:https://blog.csdn.net/matt45m/article/details/124702919?spm=1001.2014.3001.5502

2022-05-15

Yolov5-v3安全帽检测

1.这是一个检测是否佩戴安全帽的完整训练代码项目,包含一个已训练好的yolov5m的模型,mAP在90%以上,能直接应用于要求不高的场景上。 2.参考博文:https://blog.csdn.net/matt45m/article/details/124702919?spm=1001.2014.3001.5502

2022-05-15

dfinity Internet Identity使用示例

1.Internet Identity是由ICP支持的匿名区块链认证框架。用户可以创建自己的身份“锚”,将兼容的加密设备分配写入到当前设备,如笔记本电脑上的指纹传感器、手机上的面部识别系统,或便携式HSM,如YubiKey或Ledger钱包。然后,用户可以使用分配给他们的身份锚设备,注册验证ICP的dapp。这提供了很高的便利性,允许用户以极低的摩擦来验证他们感兴趣的dapp,同时受益于最高级别的加密安全性,但不需要直接管理或处理加密密钥材料。这样可以防止出错和关键材料被盗。系统对dapp进行了匿名化,每当一个锚与dapp交互时,dapp就会看到一个特别生成的假名,这可以防止用户在使用不同的dapp时被跟踪。每个用户可以创建任意数量的身份锚。 2.与大多数登录认证方法不同,Internet Identity 不需要设置和管理密码,也不需要向 dapps 或 Internet Identity 提供任何个人识别信息,这样大大的提高了安全性。 3.这里将演示如何使用Internet Identity身份,获取当前PID,使用的语言是motoko和ts。

2022-05-03

LiteSeg语义分割 C++ 模型部署

LiteSeg语义分割的模型和源码,使用OpenCV 的Dnn进行推理

2022-05-02

LiteSeg 实时轻量级语义分割算法,使用的框架是pytorch。

实时轻量级语义分割网络

2022-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除