- 博客(501)
- 资源 (49)
- 收藏
- 关注
原创 深入探究理解大型语言模型参数和内存需求
大型语言模型是使用海量数据集训练的神经网络,用于理解和生成人类语言。它们依赖于 Transformers 之类的架构,这些架构使用自注意力等机制来处理和生成文本。Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中引入的 Transformer 架构已成为许多 LLM 的基础。它由一个编码器和一个解码器组成,每个编码器和解码器都由多个相同的层组成。
2024-07-19 14:45:54
1252
原创 HiFi-GAN——基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频
本研究中的 HiFiGAN 是一种基于 GAN 的生成模型,它可以来源具体来说,它由一个发生器和两个判别器组成:多周期判别器(MPD)和多尺度判别器(MSD)。本文介绍了有关 HiFiGAN 的研究,这是一种用于高效、高质量语音合成的 GAN 模型。本研究有三个局限性是否适用于更多的说话者和语言还不得而知。嗓音的情感和节奏表现力尚未得到充分测试。尚未对有限计算资源环境下的语音合成性能进行评估。
2024-07-18 10:49:23
891
原创 隐性行为克隆——机器人的复杂行为模仿学习的新表述
在本文中,我们重点讨论了模仿学习的传统方法(显式策略)无法处理的离散性和多模态问题,并提出了一种可以处理这些问题的新方法(隐式策略)。在模拟和真实机器上的实验表明,它的性能明显优于传统方法,而且在真实机器上非常稳健。需要改进的一个方面是,与之前的 "显式政策 "相比,计算成本有所增加,因此如果能进一步降低计算成本,就有可能完成更多的动态任务。
2024-07-17 21:07:39
988
原创 文本到 3D AI 生成——Meta 3D Gen、OpenAI Shap-E工作原理与算法解析
根据文本提示生成 3D 数字资产的能力代表了人工智能和计算机图形学领域最近最令人兴奋的发展之一。随着 3D 数字资产市场规模预计将从,文本转 3D 人工智能模型将在游戏、电影、电子商务等行业的内容创作革命中发挥重要作用。但这些人工智能系统究竟是如何工作的呢?在本文中,我们将深入探讨文本转 3D 生成背后的技术细节。
2024-07-17 09:55:45
832
原创 速度与质量的碰撞——对抗扩散蒸馏 (ADD) 如何彻底改变图像生成
ADD 代表了图像生成领域的重要一步,它将 GAN 的速度与扩散模型的质量融为一体。这种创新方法彻底改变了各个领域,从创意产业和医疗保健到科学研究和实时内容创作。ADD 通过显著减少迭代步骤实现了快速逼真的图像合成,使其非常高效且用途广泛。整合分数提炼和对抗性损失可确保高质量输出,这对于要求精确度和真实度的应用至关重要。总体而言,ADD 是 AI 驱动图像生成时代的一项变革性技术。
2024-07-16 15:06:49
1258
原创 用于大规模图像识别的深度卷积网络
这项研究探讨了卷积网络深度对图像识别准确性的影响。重要的是,对具有小型卷积滤波器的网络进行的评估表明,具有 16-19 个权重层的深度网络的性能优于传统配置。这些结果使得该模型在2014年ImageNet挑战赛中取得了成功,并在其他数据集上表现出色。研究人员的目标是向公众提供两个最有效的 ConvNet 模型,以促进深度视觉表示方面的研究。
2024-07-15 23:52:12
761
原创 基于用户鼠标移动的规律可以对用户身份进行连续验证的方法
论文指出,在快速发展的网络安全环境中,传统的身份验证方法很容易受到复杂攻击的影响。因此,需要创新和强大的身份验证机制。持续验证是一种超越传统单点验证的方法,它可以监控用户行为并不断验证访问权限。鼠标移动包括与用户鼠标移动相关的参数(如速度、轨迹、操作类型等)。通过分析这些模式,可对用户进行身份验证。虽然以前的相关研究提出了各种方法,如生物识别和基于行为的身份验证,但鼠标动态技术已成为一种非侵入性的有效手段。这种方法可以根据用户的交互模式来识别和认证用户。
2024-07-14 22:16:51
888
原创 MARKLLM——LLM 水印开源工具包
在本文中,我们讨论了 MarkLLM,这是一个开源的水印工具包,它提供了一个可扩展且统一的框架来实现 LLM 水印算法,同时提供了用户友好的界面以确保易于使用和访问。此外,MarkLLM 框架支持这些框架机制的自动可视化,从而增强了这些模型的可理解性。MarkLLM 框架提供了一套全面的 12 种工具,涵盖三个视角,以及两个用于评估其性能的自动评估流程。
2024-07-14 09:19:25
729
原创 OpenCV图像处理——获取穿过圆的直线与圆相交的两个点
在OpenCV中,没有直接的函数来计算直线与圆的交点,但可以通过数学方法来实现这一功能。:使用直线上的两个点P1x1y1和P2x2y2来确定直线的斜率m和截距b。直线方程可以表示为ymxb。:将直线方程ymxb代入圆的方程x−cx2y−cy2r2。:将上述方程转换为关于x的二次方程,然后使用求根公式求解。:对于二次方程的每个根,计算相应的y值,得到交点的坐标。
2024-07-13 23:33:36
943
原创 LLM 合成数据生成完整指南
使用 LLM 进行综合数据生成需要利用这些先进的 AI 模型来创建模拟真实世界数据的人工数据集。这种方法有几个优点:1.1.灵活性:生成合成数据通常比收集和注释真实世界数据更便宜。1.2.隐私保护:可以在不暴露敏感信息的情况下创建合成数据。1.3.可扩展性: 大型语言模型(LLMs)可以快速生成大量多样化的数据。1.4.定制:数据可以根据特定用例或场景进行定制。这个简单的例子展示了如何使用 LLM 生成合成客户评论。然而,LLM 驱动的合成数据生成的真正威力在于更复杂的技术和应用。
2024-07-11 15:37:58
1082
原创 开发情绪识别人工智能时的道德考量
情绪识别人工智能是一种机器学习模型。它通常依赖于计算机视觉技术,捕捉和分析面部表情,以解读图像和视频中的情绪。然而,它也可以对音频片段进行操作,以确定语音或书面文字的语调,以评估语言的情感。这种算法代表了人工智能领域的一项令人着迷的进步,因为到目前为止,模型还无法理解人类的情感。虽然像 ChatGPT 这样的大型语言模型可以令人信服地模拟情绪和角色,但它们只能将单词逻辑地串联在一起——它们无法感受到任何东西,也无法表现出情商。虽然情绪识别模型无法产生情感,但它仍然可以检测和分类情感。
2024-07-11 11:34:11
999
原创 HumanoidBench——模拟仿人机器人算法有未来
仿人机器人有望无缝融入我们的日常生活。然而,它们的控制装置是为特定任务手动设计的,而新任务则需要大量的工程设计工作。为了解决这个问题,我们开发了一个名为 HumanoidBench 的基准,以促进仿人机器人的学习。这涉及一系列挑战,包括复杂的控制、身体协调和长期任务。该平台为测试机器人学习算法提供了一个安全、廉价的环境,并包含与人类日常任务相关的各种任务。HumanoidBench 可以轻松纳入各种仿人机器人和末端执行器、15 项全身操纵任务和 12 项运动任务。
2024-07-09 19:35:33
1504
原创 ScreenAI ——能理解从信息图表到用户界面的图像和文本算法解析
本文介绍了 ScreenAI 模型和一种新的统一模式,用于表示与信息图表、文档图像和不同用户界面兼容的复杂数据和视觉信息。通过这种统一的表示方法,可以设计出利用所有这些领域数据的自监督学习任务组合。我们还表明,在这种组合中进行的学习可以积极迁移到与屏幕相关的任务、信息图表和文档相关的任务中。此外,我们还展示了使用大规模语言模型生成数据的影响,并通过消除研究证明了模型设计选择的合理性。应用这些技术学习的模型在许多公共基准测试中实现了 SoTA 和具有竞争力的性能。
2024-07-08 23:56:20
1311
原创 ExtruOnt——为工业 4.0 系统描述制造机械类型的本体
被称为第四次工业革命(工业 4.0)的制造业出现了各种倡议和战略。这些举措旨在收集有关产品历史、状况、质量和特性的数据,并应用制造智能来利用这些数据。这为制造商创造了重要的商机。要正确设计和实施这些举措,就必须在机电一体化、制造战略、知识型员工以及建模、模拟和预测方法与工具的使用方面做出创新努力。特别是从建模的角度来看,我们发现缺乏对可访问、可互操作和可重复使用的制造机器的适当描述。因此,作者开发了本体 ExtruOnt,详细描述了一种名为挤压机的真实制造机器类型。
2024-07-07 17:13:50
1132
原创 VideoAgent——使用大规模语言模型作为代理来理解长视频
理解长视频需要能够处理各种信息并有效推理长序列的模型。现有的尝试发现,要建立能满足所有这些要求的模型非常困难。目前的大规模语言模型适合处理长语境,但不足以处理视觉信息。另一方面,视觉语言模型被认为难以处理长视觉输入。我们的系统模仿了视频理解过程,侧重于推理能力而不是处理长视觉输入;VideoAgent 比现有方法更有效、更高效,是长视频理解领域的一大进步。
2024-07-06 21:28:17
1064
原创 Gemma2——Google 新开源大型语言模型完整应用指南
以前代产品为基础,提供增强的性能和效率,以及一系列创新功能,使其在研究和实际应用中都具有特别的吸引力。Gemma 2 的与众不同之处在于,它能够提供与更大的专有模型相当的性能,但其软件包专为更广泛的可访问性和在更适中的硬件设置上使用而设计。随着深入研究 Gemma 2 的技术规格和架构,越来越被其设计的精妙之处所折服。该模型采用了多种先进技术,包括新颖的注意力机制和创新的训练稳定性方法,这些都为其卓越的性能做出了贡献。在本综合指南中,将深入探索 Gemma 2,研究其架构、主要功能和实际应用。
2024-07-06 16:37:18
1411
原创 TransformCode——代码嵌入综合指南
探索代码嵌入在 AI 辅助编程中的变革力量。了解如何将代码片段表示为密集向量,从而捕获语义和功能关系。这篇博客文章深入探讨了什么是代码嵌入、如何创建代码嵌入以及它们在代码搜索、完成、错误检测等方面的应用。探索生成代码嵌入的各种方法,包括基于标记、基于树和基于图形的方法。此外,深入了解用于无监督学习代码嵌入的高级框架(如 TransformCode)及其彻底改变软件工程任务的潜力。
2024-07-05 23:16:14
538
原创 探索人工智能在电子商务平台与游戏发行商竞争中几种应用方式
在游戏等某些领域,人工智能可以成为一种民主化因素——使新兴的、高潜力的平台能够与老牌巨头竞争。话虽如此,要充分发挥其潜力,并不只是简单地为了整合人工智能而整合它,而是要正确地去做。对于无法负担内部 AI 专家团队的小型企业来说,一个可行的解决方案是利用现有的第三方软件。即使不是 AI 专家,普通开发人员也可以使用其中一些现成的解决方案。
2024-07-05 12:47:57
875
原创 深度学习——深度学习中感受野的计算
在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上每个像素点在原始图像上映射的区域大小,这里的原始图像是指网络的输入图像,是经过预处理(如resize,warp,crop)后的图像。神经元之所以无法对原始图像的所有信息进行感知,是因为在卷积神经网络中普遍使用卷积层和pooling层,在层与层之间均为局部连接。神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;
2024-07-04 23:59:17
998
原创 LLM4Decompile——专门用于反编译的大规模语言模型
LLM4Decompile 是一项致力于反编译程序的开创性举措。首先,在构建预训练数据时,它以一百万个名为 Anghabench 的公开可编译 C 文件为基础。利用这一丰富的数据集创建汇编代码和源代码对。具体来说,首先将源代码转换为二进制对象文件,然后将其反汇编为汇编代码,并与 x86 Linux 平台上的源代码配对。它还考虑了程序员为优化执行性能而使用的各种编译器优化标志。优化过程是一种将源代码转换为更快、更高效的机器代码的技术。
2024-07-04 14:01:30
1180
原创 VideoPrism——探索视频分析领域模型的算法与应用
本文介绍的 VideoPrism 是一种基本的视频编码器,可在视频理解领域实现最先进的技术。它专注于数据和建模方法,建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比,它在各种基准测试中取得了最佳性能,并显示出极高的泛化能力。视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全,并实现反应更灵敏的互动系统。然而,在现实世界中使用这些模型之前,还必须采取措施防止潜在的偏见和滥用。
2024-07-03 22:58:29
1073
1
原创 VoiceCraft—— 业界最高水平的自然语音合成语言模型
随着VoiceCraft代码和模型的公开,预计将进一步改进模型性能,并在 VoiceCraft 的基础上开发创新模型。另一方面,滥用的风险也不容忽视,例如通过伪造语音进行欺诈。毕竟,当你听到 VoiceCraft 生成的声音时,你无法将其与当事人(输入声音的所有者)的声音区分开来。因此,人们担心欺诈案件的数量会增加,例如,某人 “伪装成本人,要求亲属将钱转入其账户”。
2024-07-03 15:39:21
983
原创 基于大语言模型建模改变法律服务是否在速度和准确性上超越人类?
论文表明,大规模语言模型可以像外包法律从业人员(LPO)和初级律师一样准确地识别合同中的法律问题。尤其值得注意的是大规模语言模型在合同审查中的速度。大规模语言模型的计算效率使其具有比人类从业人员更快地处理和分析文本的显著优势。这种速度有可能显著提高合同审查的效率和响应时间。成本分析也证实,与初级律师和 LPO 相比,大规模语言模型为合同审查提供了成本更低的选择。对于希望简化合同审核流程的法律从业人员和律师事务所来说,高准确性、快速处理速度和低成本使大型语言模型成为一个极具吸引力的选择。
2024-07-03 10:45:59
899
原创 探索大型语言模型自动评估 LLM 输出长句准确性的方法
这篇论文是关于谷歌DeepMind的,提出了新的数据集、评估方法和衡量标准,用于对 LLM 长式事实性(长式事实性)和信息准确性进行基准测试。换句话说,这项研究可用于自动评估 LLM 输出的长式信息的准确性,并为 LLM 的未来发展提供参考。
2024-07-02 12:41:42
1133
原创 Mustango——音乐领域知识生成模型探索
本文介绍了对使用音乐领域知识的音乐生成人工智能 Mustango 的研究。这项研究的局限性之一是,由于计算资源的限制,目前的 Mustango 最多只能生成 10 秒钟的音乐。他们还说,目前的 Mustango 主要只能处理西方的音乐形式,在创作其他文化的音乐方面能力较弱。因此,作为未来的研究,他们计划 “生成时间更长的音乐”,并 “将其应用于更多样化的音乐流派,例如处理非西方音乐”。虽然 Mustango 在许多指标上都达到了 SOTA,但我感觉它在某些方面的性能仍然不如其他型号。
2024-07-01 23:03:46
1271
原创 人工智能——常用数学基础之线代中的矩阵
对于矩阵C中的每个元素C[i][j],计算它是矩阵A的第i行与矩阵B的第j列的对应元素乘积之和。即,C[i][j] = A[i][k1] * B[k1][j] + A[i][k2] * B[k2][j] + …例如,在矩阵A中,第i行第j列的元素可以表示为A[i][j]。:矩阵是数值的矩形阵列,通过特定的运算规则(如矩阵乘法),在数学、科学及工程领域中实现数据变换和问题解决的关键工具。:神经网络中的权重和偏置通常被表示为矩阵,通过矩阵乘法和激活函数的组合实现输入数据的非线性变换和特征提取。
2024-07-01 22:37:19
472
原创 探索ChatGPT是如何改变癌症护理
以 ChatGPT 为例,生成式 AI 被整合到癌症治疗中,代表着医疗保健领域的一次变革性飞跃。通过利用先进的 AI 技术,Color Health 和 OpenAI 正在开发可显著提高诊断准确性和治疗效率的工具。副驾驶模型采用医生在环方法,确保 AI 能够增强人类的专业知识而不是取代它,从而保持关键监督并改善患者治疗效果。随着这项技术在临床环境中接受严格评估,其改变癌症治疗的潜力变得越来越明显。
2024-06-30 17:30:00
1120
1
原创 揭开大语言模型(LLM)内部运作的算法逻辑
Anthropic 在提高大型语言模型 (LLM) 透明度方面取得的突破是理解人工智能的重要一步。通过揭示这些模型的工作原理,Anthropic 正在帮助解决人们对其安全性和可靠性的担忧。然而,这一进展也带来了新的挑战和风险,需要认真思考。随着人工智能技术的进步,在透明度和安全性之间找到适当的平衡对于负责任地利用其优势至关重要。
2024-06-30 12:46:48
738
原创 生成式人工智能和机器人技术是否即将取得最后的突破?
了解生成式人工智能与机器人技术的融合如何彻底改变从医疗保健到娱乐等行业想象一下这样一个世界,机器人可以谱写交响乐、画出杰作、写出小说。这种创造力与自动化的迷人融合,由 生成式人工智能,不再是梦想;它正在以重大方式重塑我们的未来。生成式人工智能和机器人技术的融合正在引发范式转变,有可能改变从医疗保健到娱乐等各个行业,从根本上改变我们与机器的互动方式。人们对这一领域的兴趣正在迅速增长。大学、研究实验室和科技巨头正在为生成式人工智能和机器人技术投入大量资源。随着研究的增加,投资也大幅增加。
2024-06-29 21:30:17
1072
原创 数字人解决方案——数字人类不仅仅是长着一张脸的人工智能
数字人类曾经是简单的聊天机器人,经常误解问题,这让许多人感到沮丧。现在,他们已经发展成为先进的虚拟代理,可以像最好的客户服务代表一样有效地沟通,拥有专家级的知识,并且看起来与真人惊人地相似。这些先进的数字生物所做的不仅仅是为客户服务添加一个面孔;它们正在彻底改变我们思考和使用人工智能的方式。他们正在承担过去只能由人类完成的复杂任务,从处理客户查询到执行专门的后端操作。让我们深入了解数字人类如何重塑我们在日常生活中与技术的互动。
2024-06-29 15:19:37
1065
原创 探索人工智能和LLM对未来就业的影响
近年来,人工智能(AI)迅猛发展,引发了人们的兴奋,同时也引发了人们对就业未来的担忧。大型语言模型(LLM)就是最新的例子。这些强大的人工智能子集经过大量文本数据的训练,以理解和生成类人语言。根据一个由于人工智能的兴起,其全球 55% 的会员的工作可能会经历一定程度的变化。了解人工智能和LLM将如何扰乱就业市场对于企业和员工适应变化并在快速发展的技术环境中保持竞争力至关重要。本文探讨了人工智能对就业的影响以及劳动力自动化将如何扰乱就业。
2024-06-29 14:52:57
917
2
原创 LLaVA-UHD——感知任何长宽比和高分辨率图像的 LMM
在本文中,我们讨论了 LLaVA-UHD,这是一种新颖的方法,首先以 LLaVA-1.5 和 GPT-4V 框架为代表,并试图揭露其视觉编码策略中根源的系统缺陷。LLaVA-UHD 框架是一种多模式模式,是应对这些挑战的尝试。LLaVA-UHD 框架可以感知高分辨率和任何长宽比的图像。LLaVA-UHD 框架围绕三个关键组件构建。首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以试图提高效率并扩展编码。接下来,压缩模块进一步压缩视觉编码器生成的图像标记。
2024-06-28 23:28:01
849
原创 OpenCV图像处理——cv::Mat的位操作示例
在OpenCV中,cv::Mat 类提供了许多位操作功能,允许你执行像素级的位操作,如与、或、非、异或等。
2024-06-27 11:07:33
304
原创 如何阅读一篇学术论文
这有助于巩固对论文的整体理解,并弄清主要的研究进展和结论,但可以跳过公式和不熟悉的术语。通过这种深入但有计划的阅读方式,就可以更好地理解论文的核心内容,并且在阅读过程中逐渐消化和吸收其中的知识。和第一遍阅读一样,不要立刻深入核心内容,而是要充分了解论文的背景和研究出发点,包括其研究背景、方法和实验结果。更实用的方法是首先理解论文的研究背景,关注论文的「标题」、「摘要」和「结论」这三个关键部分。论文的格式实际上常常遵循着固定的结构,这种结构有助于作者整理思路,同时也帮助读者快速定位论文的要点和创新之处。
2024-06-25 21:33:46
311
原创 计算机视觉——OpenCV C++实现凸包
在图像中发现和分析形式是解决大多数计算机视觉问题的技巧之一,获取轮廓是其中之一。对于新手来说,我会将轮廓描述为“仅仅是一条连接所有位于形状边缘上的点的曲线。假设我有下面这张手的图像,手的轮廓由绿线表示。红点代表我们将连接起来形成轮廓曲线的点。我对轮廓的高级数学课程记忆犹新。然而,由于老师从未强调过轮廓在现实世界中的应用,所以很难理解这个主题的重要性。今天,我发现它在计算机视觉中的重要性。什么是凸包?一个没有大于180度的内角的物品被称为凸形的。非凸形或凹形是指不是凸形的形状。
2024-06-25 16:19:07
1181
原创 SF-YOLOv5——基于改进的特征融合模式的轻量级小目标检测算法
图像首先通过输入层(input)进行处理,然后被发送到主干网络进行特征提取。主干网络获取不同尺寸的特征图,并通过特征融合网络(neck)将这些特征进行融合,最终生成三个特征图P3、P4和P5(在YOLOv5中,这些尺寸分别表示为80×80、40×40和20×20),用于分别检测图像中的小型、中型和大型物体。
2024-06-25 15:50:28
1013
原创 Stable Diffusion——SDXL 1.0原理解析
SDXL 1.0是Stability AI推出的新基础模型,作为Stable Diffusion的大幅改进版本,它是一个用于文本到图像合成的潜在扩散模型(LDM)。作为Stable Diffusion的最新进化,它正在超越其前身,并与MidjourneySOTA图像生成器相媲美的图像。这些改进源于一系列有意识的设计选择,包括一个3倍大的UNet骨干网络,更强大的预训练文本编码器,以及引入了一个单独的基于扩散的精炼模型。精炼模型使用SDEdit首次提出的后处理图像到图像扩散技术,提高了样本的视觉保真度。
2024-06-25 15:41:22
876
原创 探索约束LLM输出JSON的应用
JSON(JavaScript Object Notation)因其简洁、易读和易于解析的特性,已成为全球使用最广泛的数据交换格式之一。它能够满足各种数据交换需求,特别是在构建人工智能驱动的应用程序时,工程师们经常需要将大型语言模型(LLM)的输出整合到他们的代码库中。通过向LLM指定特定的语法或模式,并指导其生成符合这些规范的结果,可以提高应用程序的可预测性和稳定性。这种标准化的输出方式,使得应用程序能够更加高效地处理和利用由LLM生成的数据。
2024-06-24 19:17:54
944
yolov5-v7.0河道漂浮物检测.rar
2024-04-24
YOLOv8与DeepSORT实现目标追踪
2024-04-18
手机目标检测数据集.rar
2024-04-14
标注扑克牌目标识别数据集
2024-04-13
实时语义分割ENet算法Pytorch复现与模型训练
2024-04-10
基于深度学习实现的复杂背景文档二值化的算法实现
2024-04-10
夜晚图像雾霾图像增强C++/python部署
2024-04-10
基于NCNN轻量级PaddleOCRv4模型C++推理
2024-04-02
检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)
2024-03-29
YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面
2024-03-26
图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)
2024-03-24
百度人像抠图C++模型部署完整包
2024-03-23
人像自动抠图LFM训练代码与C++推理部署代码
2024-03-22
PP-Matting高精度抠图模型C++推理
2024-03-21
离线语音识别C++实现
2024-03-20
SadTalker语音驱动肖像图像数字人源码与模型
2024-03-18
Wav2lip 语音驱动Ai数字人源码与模型
2024-03-16
用于边缘检测的轻量级密集神经网络C++推理
2024-03-10
P2PNet密集人流统计C++实现
2024-03-09
视频一键祛水印/视频目标移除
2023-10-23
一键提取视频语音并转文本带UI界面
2023-09-30
实现视频目标移除/视频水印移除/视频掩码补全/视频外扩等多个实用功能
2023-09-30
语义分割实现人脸图像的皱纹检测定位与分割数据集
2023-09-13
开放世界万物识别模型推理C++代码,目前可以识别的目标有2万1000多种
2023-09-13
基于yoloV5的x下光危险物物品识别推理代码带UI界面
2023-08-06
实时对话数字人解决方案实现源码
2023-07-22
最强伴奏人声提取工具开源免费
2023-07-10
智能黑白图像自动上色C++源码
2023-01-08
烟火检测标注好的数据集
2022-11-01
人脸比对与人脸识别C++代码与模型
2022-10-26
高清视频与图像人像抠图
2022-10-25
OpenCV视频人脸自动打码
2022-10-23
Yolov7目标检测与实例分割的C++推理代码
2022-10-19
目标识别与区域入侵检测
2022-07-11
安全帽头盔佩戴检测识别
2022-05-15
Yolov5-v3安全帽检测
2022-05-15
dfinity Internet Identity使用示例
2022-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人