- 博客(394)
- 资源 (49)
- 收藏
- 关注
原创 深度神经网络——什么是自动编码器?
自动编码器是一种无监督机器学习算法,它通过反向传播进行训练,目标值被设置为与输入值相等。其核心目标是对输入数据进行压缩,转换成一个更小的表示形式,如果需要原始数据,可以从压缩后的数据中重建。
2024-05-23 12:03:00 293
原创 Inflection-2.5:与 GPT-4 和 Gemini 相媲美的强大 LLM
一直在该领域掀起波澜,最近推出了 Inflection-2.5,该模型可与世界领先的 LLM 竞争,包括 OpenAI 的 GPT-4 和 Google 的 Gemini。大量的人工智能进一步推动了变形人工智能的快速崛起。由微软、NVIDIA 等行业巨头以及 Reid Hoffman、Bill Gates、Eric Schmidt 等知名投资人领投。
2024-05-22 23:43:39 431 1
原创 多模态交互式 AI 代理的兴起:探索 Google 的 Astra 和 OpenAI 的 ChatGPT-4o应用
OpenAI的发展和标志着交互式人工智能代理的新阶段:多模式交互式人工智能代理的兴起。这次旅程开始于和,它将语音激活的人工智能带入主流用途,并通过语音命令改变了我们与技术的交互。尽管有影响,这些早期的代理仅限于简单的任务,并且在复杂的查询和上下文理解方面遇到困难。成立之初标志着这一领域的重大演变。它使人工智能代理能够进行自然语言交互、回答问题、起草电子邮件和分析文档。然而,这些代理仍然仅限于处理文本数据。然而,人类自然地使用多种模式进行交流,例如语音、手势和视觉提示,使得多模式交互更加直观和有效。
2024-05-22 22:08:36 316
原创 深度神经网络——什么是混淆矩阵?
混淆矩阵是一种在机器学习和数据科学中广泛使用的分析工具,用于评估分类模型的性能。它通过比较实际类别和模型预测的类别来提供模型性能的详细信息。:混淆矩阵是一个表格,通常有两行两列(对于二分类问题)或更多行和列(对于多分类问题)。每一行代表实际类别,每一列代表预测类别。:矩阵中的元素表示不同类别的样本数量。:与其他性能指标(如简单准确度)相比,混淆矩阵提供了更全面的模型性能视图。它可以帮助识别模型在特定类别上的表现,特别是当模型倾向于错误地识别某个类别时。:虽然混淆矩阵非常有用,但它也有局限性。
2024-05-22 10:18:32 778
原创 AIGC——ADD具有对抗学习和知识提炼功能的扩散模型
对抗性扩散蒸馏(ADD)是用于将预先训练好的扩散模型蒸馏为快速、低步骤的图像生成模型。所提出的方法结合了对抗性蒸馏和分数蒸馏损失,利用来自判别器的真实数据和来自扩散教师的结构理解,对稳定扩散和 SDXL 等训练有素的模型进行蒸馏。所提出的方法在进行一到两步的超快速采样时表现尤为出色,实验结果表明,它在很多情况下都优于之前的研究。另一方面,进一步增加步数会产生更好的结果,优于常用的多步扩散模型,如 SDXL、IF 和 OpenMUSE。不过,在图像质量和与 pronto 的一致性方面,单步采样生成模型仍有改进
2024-05-21 22:08:27 896
原创 深度神经网络——什么是生成式人工智能?
生成式人工智能最近引起了很大的关注。该术语用于指依赖无监督或半监督学习算法来创建新的数字图像、视频、音频和文本的任何类型的人工智能系统。麻省理工学院表示,生成式人工智能是过去十年人工智能领域最有前途的进展之一。通过生成式人工智能,计算机可以学习与输入相关的基本模式,从而使它们能够输出类似的内容。这些系统依赖于生成对抗网络(GAN)、变分自动编码器和变压器。围绕生成式人工智能的炒作正在稳步增长,Gartner 将其纳入““ 报告。据该公司称,它是市场上最具影响力和发展最快的技术之一。
2024-05-21 11:39:12 565
原创 xLSTM——解析扩展长短期记忆的网络算法与应用
二十多年来,创举架构在许多深度学习突破和实际应用中发挥了重要作用。从生成自然语言到为语音识别系统提供动力,LSTM 一直是人工智能革命背后的驱动力。然而,即使是 LSTM 的创建者也认识到它们固有的局限性,导致它们无法充分发挥潜力。无法修改存储的信息、内存容量有限以及缺乏并行化等缺点为 Transformer 和其他模型的兴起铺平了道路,以超越 LSTM 来完成更复杂的语言任务。但在最近的一项进展中,Hochreiter 和他的团队引入了一个新的变体,称为解决这些长期存在的问题。
2024-05-21 09:11:21 905
原创 LLM彻底改变软件开发的语言模型——使用新的评估工具包验证集成开发环境(IDE)中的大规模语言模型
随着开发人员越来越频繁地使用大规模语言模型来完成复杂的工程任务,对大规模语言模型生成的代码进行稳健评估的需求也与日俱增。由于许多公司和产品都希望将大规模语言模型集成到工作流程中,因此仅靠现有的评估指标无法充分保证自动生成代码的质量和准确性。为解决这一问题,本文提出了 Copilot 评估工具包,并介绍了五个关键评估指标:方法生成、测试生成、对接字符串生成、错误修复和工作区理解。
2024-05-20 14:15:46 1098
原创 深度神经网络——什么是迁移学习?
在练习机器学习时,训练模型可能需要很长时间。从头开始创建模型架构、训练模型,然后调整模型需要大量的时间和精力。训练机器学习模型的一种更有效的方法是使用已经定义的架构,可能具有已经计算出的权重。这是背后的主要思想,采用已使用的模型并将其重新用于新任务。在深入研究迁移学习的不同使用方式之前,让来了解为什么迁移学习如此强大且有用的技术。
2024-05-20 08:28:02 608 1
原创 深度神经网络——什么是边缘人工智能和边缘计算
为了真正理解边缘AI,我们首先需要理解边缘计算,而理解边缘计算的最佳方式是 边缘计算就是将它与云计算进行对比。云计算是通过互联网提供计算服务。相比之下,边缘计算系统不连接到云端,而是在本地设备上运行。这些本地设备可以是专用的边缘计算服务器、本地设备、 或物联网 (IoT)。使用边缘计算有很多优点。例如,基于互联网/云的计算受到延迟和带宽的限制,而边缘计算则不受这些参数的限制。现在我们了解了边缘计算可以看看Edge AI。边缘人工智能结合了人工智能和边缘计算。人工智能算法在支持边缘计算的设备上运行。
2024-05-19 23:01:24 961
原创 MagicDance——逼真的人类舞蹈视频生成
MagicDance 是一种新颖的方法,通过结合面部和动作表情传输来促进逼真的人类视频生成,并在野外动画生成中实现一致,而不需要任何进一步的微调,这表明比现有方法有显着的进步。此外,MagicDance框架在复杂的运动序列和不同的人类身份方面表现出卓越的泛化能力,使MagicDance框架成为人工智能辅助运动传输和视频生成领域的领先者。
2024-05-19 22:24:41 718
原创 Morpheus-1——探索人工智能可穿戴高设备如何重新定义梦境与现实的界限?
Morpheus-1是Prophetic设计的先进人工智能系统,正在重塑梦想与现实之间的界限。通过监测大脑状态并采用超声波全息图,它的目的是诱导和控制清醒梦。虽然对治疗和创造力有希望,但伦理问题也随之出现,需要持续的科学探索来优化技术并解决社会影响。Morpheus-1 代表着人工智能与我们的潜意识无缝集成的未来的重大飞跃,提供对迷人梦境的可控访问。
2024-05-19 11:11:41 812
原创 AIGC——BrushNet使用双分支扩散进行即插即用图像修复
在本文中,我们讨论了 BrushNet,这是一种新颖的即插即用双分支工程框架,它将像素级掩模图像特征嵌入到任何预先训练的扩散模型中,从而保证一致性并增强图像修复任务的结果。 BrushNet 框架引入了一种新颖的范例,在该范例下,该框架将图像特征和潜在噪声划分为单独的分支。图像特征和噪声潜伏的划分极大地减少了模型的学习负担,并有助于以分层方式细致地合并基本的屏蔽图像信息。除了 BrushNet 框架之外,我们还将讨论 BrushBench 和 BrushData,它们分别促进基于分割的性能评估和图像修复训练
2024-05-18 19:08:58 640
原创 LLM——探索大语言模型在心理学方面的应用研究
大规模语言模型(LLMs)为心理学研究提供了强大的工具,它们在各个心理学领域的应用前景广阔。随着技术的不断进步,LLMs有望在心理学研究中发挥更大的作用,帮助我们更深入地理解人类心理和行为。
2024-05-18 18:48:22 589
原创 深度学习模型部署——基于Onnx Runtime的深度学习模型CPU与GPU部署(C++实现)
以上就是在win 10下使用Onnx Runtime用CPU与GPU来对onnx模型进行推理部署的对比,可以明显的看出来,使用GPU之后的推理速度,但在正式的大型项目中,在win下使用GPU部署模型是不建议,一般都会选择Linux,那样对GPU的利用率会高出不少,毕竟蚊腿肉也是肉。
2024-05-18 18:17:38 648
原创 LLM——大语言模型在解梦中的应用探索与研究
虽然研究人员已经迈出了人工智能解梦的第一步,但这项技术在很大程度上仍未得到证实。高端应用可能需要数年时间才能进入消费市场。如今有没有办法利用人工智能来解梦?
2024-05-17 23:25:25 725 1
原创 YOLO实例分割——比对Yolov8与Yolov9在医学图像实例分割数据集上的实践
对于像YOLO和SSD这样的轻量级模型,在前向传递过程中存在信息降级的风险。因为,**信息丢失**主要是由于它们架构中使用的下采样操作引起的。这些模型通过池化和步幅卷积迅速减小空间维度,将输入图像压缩成紧凑的特征表示。虽然这有助于增加接受域并减少计算成本,但它导致了对检测小的和密集堆积的对象至关重要的细粒度细节的丢失。
2024-05-17 10:26:09 837
原创 探索人工智能在教育领域的未来,以人为本的学习方法的解析
本文重点探讨计算机辅助文本分析在提高教育质量方面的潜力。具体来说,它探讨了如何利用人工智能和机器学习方法,通过深入了解教育内容和师生互动来改进教学。它以理查德-埃尔莫尔的教学核心框架为基础,表明人工智能/机器学习可为教师辅导、学生支持和教育内容开发带来显著效益。会议还强调,人工智能/ML 不仅有助于简化行政任务,还有助于提供个性化的学习途径、向教育者提供反馈以及了解教学动态。最后,与会者主张,需要采取一种平衡的方法,使人工智能/ML 技术与教育目标相一致,并考虑到道德因素、数据质量和人类专业知识的整合。
2024-05-16 18:25:28 868
原创 YOLO损失函数——SIoU和Focal Lossr损失函数解析
在深度学习的目标检测领域,损失函数扮演着至关重要的角色,它们不仅衡量模型预测与实际标注之间的差异,还引导模型参数的优化方向。SIoU (Shape-Aware IoU) 损失是一种用于边界框回归的先进损失函数,它综合考虑了形状、距离和纵横比的对齐,以提升模型的收敛速度和预测准确性。SIoU损失通过结合角度成本、距离成本、形状成本和IoU成本,优化了边界框的定位精度。
2024-05-15 19:01:29 717
原创 AIGC——Instant-Style文本到图像生成中的样式保留算法解析
在本文中,我们讨论了 Instant-Style,这是一个通用框架,它采用两种简单但有效的策略来实现内容和风格与参考图像的有效分离。InstantStyle 框架的设计目的是解决当前基于调整的扩散模型在图像生成和定制方面所面临的问题。Instant-Style 框架实现了两个重要策略:一种简单而有效的方法,用于将样式和内容与特征空间内的参考图像解耦,该方法是基于同一特征空间内的特征可以相互添加或减去的假设进行预测的。
2024-05-15 13:08:14 600
原创 数字人解决方案——ID-Animator可保持角色一致生成视频动画
在这项研究中,主要目标是在文本到视频 (T2V) 模型中实现特定于 ID 的内容生成。为此,本文引入一个 ID-Animator 框架来驱动 T2V 模型使用 ID 图像生成特定于 ID 的人类视频。通过基于公开可用资源构建面向 ID 的数据集,结合解耦字幕生成和人脸池构建,促进 ID-Animator 的训练。此外,本文开发一种随机人脸参考训练方法,以最大限度地减少参考图像中与 ID 无关的内容,从而将适配器的注意力引导到与 ID 相关的特征上。
2024-05-14 23:18:30 953
原创 探索执法部门如何在不依赖面部识别的情况下追踪感兴趣的人
随着人工智能与执法的日益融合,在保护隐私和确保公共安全之间取得平衡成为首要问题。虽然人工智能有望加强公共安全措施,但它也有可能侵犯隐私和滥用权力。通过正确的保障措施和实践,人工智能可以用来服务和支持更大的利益。对于组织来说,建立道德和法律框架来管理人工智能的使用和保护隐私权至关重要。这就需要制定旨在促进人工智能驱动系统的透明度、问责制和监督的立法举措和指导方针。实施数据匿名化和严格的安全协议等最佳实践也很重要,这将有助于减轻与人工智能技术相关的固有风险。
2024-05-14 17:53:52 780
原创 数字人解决方案——AniTalker声音驱动肖像生成生动多样的头部说话视频算法解析
AniTalker是一款先进的AI驱动的动画生成工具,它超越了简单的嘴唇同步技术,能够精准捕捉并再现人物的面部表情、头部动作以及其他非言语的微妙动态。这不仅意味着AniTalker能够生成嘴型精准同步的视频,更重要的是,它还能够呈现自然流畅的表情变化和动作,使得最终的动画效果更加逼真,更具吸引力。通过AniTalker,动画制作不再局限于专业的动画师或高昂的制作成本。现在,任何拥有一张人物照片和相应的音频文件的用户,都能够轻松制作出高质量的说话动画视频,这极大地拓宽了个人表达和创意创作的边界。
2024-05-13 18:34:20 1344 1
原创 AIM可以像 LLM 一样进行扩展的自回归图像模型
AIM(Autoregressive Image Model)是一种自回归学习图像模型,它是对语言模型的图像版本进行了推广。该模型的预训练图像特征质量会随着模型大小和数据质量的提高而提高,从而带来更好的性能。同时,下游任务的性能也会随着预训练性能的提高而提高。通过在大规模图像数据集上进行预训练,AIM 模型可以学习到丰富的图像特征,这些特征可以被迁移到各种下游视觉任务中,如图像分类、目标检测、语义分割等。据报道,在 20 亿张图像上预训练了 70 亿个 AIM 参数,并在 ImageNet-1k 任务中达
2024-05-13 13:19:45 950
原创 全面了解 LLM 微调——根据应用场景独特需求定制大型语言模型
微调,作为解锁Alpaca、Falcon和GPT-4等大型语言模型(LLM)全部潜力的关键环节,已经演化为一种更为精细和目标化的过程,为形形色色的任务量身定制解决方案。我们目睹了为特定角色量身定制的单任务微调,以及如LoRA和QLoRA这样的参数高效微调(PEFT)方法的发展。这些方法通过优化模型的特定部分,旨在实现训练过程的高效和成本效益,推动了高级AI功能的普及和应用。
2024-05-12 23:03:58 944
原创 计算机视觉——基于改进UNet图像增强算法实现
在低光照条件下进行成像非常具有挑战性,因为光子计数低且存在噪声。高ISO可以用来增加亮度,但它也会放大噪声。后处理,如缩放或直方图拉伸可以应用,但这并不能解决由于光子计数低导致的低信噪比(SNR)。短曝光图像受到噪声的影响,而长曝光可能会引起模糊,通常也不切实际。已经提出了各种去噪、去模糊和增强技术,但在极端条件下,如夜间视频速率成像,它们的有效性是有限的。有物理手段可以增加低光照下的SNR,包括打开光圈、延长曝光时间以及使用闪光灯。
2024-05-12 11:06:41 806
原创 计算机视觉——OpenCV实现Lucas-Kanade 光流追踪
光流法是计算机视觉中用于估计图像序列中物体运动的关键技术。它类似于观察夜空中的彗星,通过其在天空中的运动轨迹来追踪它的路径。在图像处理中,光流帮助我们理解像素点如何在连续的帧之间移动。
2024-05-11 17:09:48 1017 3
原创 从静态PPT到智能演讲——人工智能在演示文稿中的应用
人工智能工具在创建和改进演示文稿方面提供了显著的帮助,它们通过自动化和智能化的设计建议,使演讲者可以更专注于内容的传达和演讲的练习。AI工具能够提供个性化的设计模板、内容布局建议,甚至是演讲稿的撰写辅助,极大地提高了演示文稿制作的效率和质量。然而,AI工具并不能完全取代人类的专业知识和经验。一个经验丰富的商业演示技能教练能够提供个性化的培训、反馈和指导,这些都是AI工具难以实现的。教练能够理解演讲者的个人风格、演讲内容的深层含义以及观众的具体需求,从而提供更为精准和深入的建议。
2024-05-11 13:32:08 719
原创 大型动作模型 (LAM):AI 驱动的交互的下一个前沿
现在人工智能中几个关键的领域,包括生成式人工智能(Generative AI)、大型动作模型(Large Action Models, LAM)、以及交互式人工智能(Interactive AI)。生成式人工智能是一种能够创建新内容(如图像、音乐、文本等)的AI技术。它通常依赖于大型语言模型(如GPT系列)或其他类型的生成模型,如生成对抗网络(GANs)
2024-05-10 23:25:49 1076
原创 Yolov8目标检测——在Android上部署Yolov8 tflite模型
TensorFlow Lite (tflite) 是一种用于移动和嵌入式设备上的机器学习模型的格式。它允许开发者将训练好的 TensorFlow 模型转换为一个更小、更快、更高效的格式,以便于在资源受限的环境中运行,比如智能手机和微控制器。
2024-05-10 19:13:33 1407 5
原创 实例分割——Mask R-CNN、YOLOV8、RTMDET、DeepLab四种实例分割算法比对
与目标检测不同,实例分割不仅识别对象的存在,还为每个检测到的对象生成一个像素级别的掩码,这允许更精细的分析和编辑。从上面这个例子可以看出,检测任务定位了对象的包围框,语义分割分割出了人这个类别,不过把所有的人一起分割了,实例分割区分出了每个人,并分别进行了分割。为了解决RoI Pooling中的量化问题,Mask R-CNN引入了RoIAlign层,它通过双线性插值精确地计算输入特征在RoI上的值,而不进行量化,从而更好地保持空间对齐,这对于生成高质量的分割掩码至关重要。
2024-05-09 20:44:48 1019
原创 计算机视觉——Opencv blobFromImage与torchvision实现数据标准化
是 OpenCV 的深度神经网络(DNN)模块中的一个函数,它用于将图像转换为深度学习模型所需的输入格式,主要是对传入的图像进行的转换包括图像尺寸调整、均值减法、缩放等预处理步骤,以便图像数据能够适配深度学习模型的输入要求。
2024-05-09 11:10:15 783 1
原创 LLM——大语言模型完整微调策略指南
微调大型语言模型(LLMs)是一个精细的过程,它涉及两个主要阶段:首先是使用大型预训练模型,其次是通过特定于目标任务或领域的数据集进行第二阶段的训练来更新模型的参数。这个过程允许模型学习并吸收特定于较小领域或任务的细微差别、模式和目标。预训练阶段:在这个阶段,模型从庞大且多样化的文本语料库中学习,获取广泛的语言理解能力。这为模型提供了一个坚实的基础,包括对语言的基本结构、语法、词汇以及不同话题的广泛知识。
2024-05-08 14:04:34 1238
原创 数字人解决方案——AniPortrait音频驱动的真实肖像动画合成
AniPortrait,这是一个新颖的框架,旨在生成由参考肖像图像和音频样本驱动的高质量动画。只需输入参考图像和音频剪辑,AniPortrait 框架就能够生成具有自然头部运动和平滑嘴唇运动特征的肖像视频。通过利用扩散模型强大的泛化能力,AniPortrait 框架生成的动画能够显示令人印象深刻的逼真图像质量和逼真的运动。 AniPortrait 框架的工作分为两个阶段。首先,AniPortrait 框架从音频样本中提取中间 3D 表示,并将它们投影到一系列 2D 面部标志中。接下来,该框架采用鲁棒的扩散模
2024-05-08 09:03:55 1453
原创 计算机视觉——OpenCV Otsu阈值法原理及实现
Otsu阈值法,也被称为大津算法,是一种在图像处理中广泛使用的自动阈值分割技术。这种方法由日本学者大津展之于1979年提出,旨在根据图像的灰度直方图来自动选择最佳全局阈值。Otsu阈值法的核心思想是最小化类内方差或最大化类间方差。预处理:对输入图像进行预处理,以减少噪声和增强图像特征。常见的预处理方法包括高斯平滑滤波,这有助于平滑图像,减少随机噪声。灰度直方图:计算图像的灰度直方图,即统计图像中每个灰度级出现的频率。直方图可以提供图像的灰度分布信息。阈值计算:这是Otsu算法的关键步骤。
2024-05-07 18:54:18 1096 1
原创 Versatile Diffusion—— 融合文本和图像的扩散模型
Diffusion模型在各种生成任务中取得了显著的进展,成为了一个重要的里程碑。特别是像DALL·E 2、Imagen和Stable Diffusion(SD)这样的模型,不仅在学术界引起了广泛关注,也在工业界产生了深远影响。尽管这些模型在特定任务上表现出色,例如根据文本描述生成图像,但它们通常只能处理一类任务。对于不同类型的任务,我们往往需要独立训练或构建新的模型。
2024-05-07 10:29:57 970
原创 LLM——用于微调预训练大型语言模型(LLM)的GPU内存优化与微调
GPT-4、Bloom 和 LLaMA 等大型语言模型(LLM)通过扩展至数十亿参数,实现了卓越的性能。然而,这些模型因其庞大的内存需求,在部署进行推理或微调时面临挑战。这里将探讨关于内存的优化技术,旨在估计并优化在 LLM 推理以及在多样化硬件配置上进行微调过程中的内存消耗。模型规模:模型拥有的参数数量直接决定了其对内存的需求。参数数量越多,模型文件体积越大,加载和执行模型所需的内存也就越多。输入数据量:处理的输入数据量增加,也会相应增加内存的使用。
2024-05-06 18:33:04 1103
原创 EmotionBench—— 基于 LLM 情绪的量化框架
大型语言模型(LLM)在近年来取得了显著的进展,这在计算机科学领域被视为一个重要的里程碑。像ChatGPT和Claude这样的综合性软件已经不再仅仅是用于句子校正、文本翻译和编程的工具,它们已经演进成为类似于人类的助手。因此,对于LLM的评估,我们不仅需要关注其性能,还需要深入了解它们所引发的情感反应,并将其与人类的情感反应进行比较。在这一背景下,本研究创建了一个包含428种情境模式的大型数据集,这些情境模式已被证实能够有效地激发八种不同的负面情绪。
2024-05-06 11:56:57 559
原创 Brain2Music——根据大脑信息自动生成音乐
这项研究由谷歌、大阪大学和其他机构合作进行,开发出了 “基于大脑活动生成音乐的模型”–Brain2Music。生成的音乐可在以下 GitHub 页面上聆听。具体来说,该技术利用 fMRI(功能磁共振成像)测量 “听音乐的受试者的大脑活动”,并利用大脑活动数据生成音乐。这项研究很可能成为未来开发可输出想象旋律的模型以及大脑如何解读音乐的垫脚石。fMRI 是一种通过检测大脑血流变化来无创观察大脑活动的技术。它使用一种取决于血液中氧含量的信号(BOLD 信号)来显示大脑活动的空间分布。
2024-05-05 21:41:48 977
原创 探索LLM在广告领域的应用——大语言模型的新商业模式和新个性化广告的潜力
在网络搜索引擎的世界里,广告在塑造数字体验方面发挥着不可或缺的作用。这一市场的规模已达数万亿美元,而且还在继续增长。广告的经济重要性甚至更大。随着各种信息和服务的免费提供,广告已成为重要的支撑支柱。广告收入模式正在使教育和信息的获取民主化,使人们能够免费享受内容,并极大地促进了数字生态系统的发展。广告与内容生产之间的协同作用正在推动经济增长,广告市场的重要性也与日俱增,Netflix 等公司推出了广告支持计划。
2024-05-04 10:23:28 613
yolov5-v7.0河道漂浮物检测.rar
2024-04-24
YOLOv8与DeepSORT实现目标追踪
2024-04-18
手机目标检测数据集.rar
2024-04-14
标注扑克牌目标识别数据集
2024-04-13
实时语义分割ENet算法Pytorch复现与模型训练
2024-04-10
基于深度学习实现的复杂背景文档二值化的算法实现
2024-04-10
夜晚图像雾霾图像增强C++/python部署
2024-04-10
基于NCNN轻量级PaddleOCRv4模型C++推理
2024-04-02
检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)
2024-03-29
YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面
2024-03-26
图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)
2024-03-24
百度人像抠图C++模型部署完整包
2024-03-23
人像自动抠图LFM训练代码与C++推理部署代码
2024-03-22
PP-Matting高精度抠图模型C++推理
2024-03-21
离线语音识别C++实现
2024-03-20
SadTalker语音驱动肖像图像数字人源码与模型
2024-03-18
Wav2lip 语音驱动Ai数字人源码与模型
2024-03-16
用于边缘检测的轻量级密集神经网络C++推理
2024-03-10
P2PNet密集人流统计C++实现
2024-03-09
视频一键祛水印/视频目标移除
2023-10-23
基于InsightFace、CodeFormer实现高清换脸与验证换脸后效果能否通过人脸比对、人脸识别算法
2023-10-05
一键提取视频语音并转文本带UI界面
2023-09-30
实现视频目标移除/视频水印移除/视频掩码补全/视频外扩等多个实用功能
2023-09-30
语义分割实现人脸图像的皱纹检测定位与分割数据集
2023-09-13
开放世界万物识别模型推理C++代码,目前可以识别的目标有2万1000多种
2023-09-13
基于yoloV5的x下光危险物物品识别推理代码带UI界面
2023-08-06
实时对话数字人解决方案实现源码
2023-07-22
最强伴奏人声提取工具开源免费
2023-07-10
智能黑白图像自动上色C++源码
2023-01-08
烟火检测标注好的数据集
2022-11-01
人脸比对与人脸识别C++代码与模型
2022-10-26
高清视频与图像人像抠图
2022-10-25
OpenCV视频人脸自动打码
2022-10-23
Yolov7目标检测与实例分割的C++推理代码
2022-10-19
目标识别与区域入侵检测
2022-07-11
安全帽头盔佩戴检测识别
2022-05-15
Yolov5-v3安全帽检测
2022-05-15
dfinity Internet Identity使用示例
2022-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人