![](https://img-blog.csdnimg.cn/direct/acdd5430ccef4ff2b75af1f14b6eb0e7.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
零基础玩转各类开源AI项目
文章平均质量分 94
层出不穷的开源人工智能项目是未来的生产力基石之一,也是商业人工智能的有力补充和制衡,是不可忽视的技术力量。本栏目致力于发现与实践有趣、好玩、好用的开源人工智能项目,手把手带领小伙伴们掌握并应用开源AI成为全新的生产力工具。
政安晨
专注于人工智能感知交互技术的研究与产品实践,双一流大学软件领域硕士,数十项发明专利授权,18年+行业经验。
展开
-
政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成
本文目标:基于Ubuntu系统从源码部署MuseV项目。作者政安晨踩完了所有的坑,小伙伴们可以开心的笑纳。原创 2024-07-10 18:16:47 · 913 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署ComfyUI:功能最强大、模块化程度最高的Stable Diffusion图形用户界面和后台
ComfyUI这套框架可让您使用基于图形/节点/流程图的界面设计和执行高级稳定扩散管道。原创 2024-07-05 15:54:58 · 1014 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】解析开源:Stable Diffusion 3 论文及用户界面工具 StableSwarmUI
新的多模态扩散变换器(MMDiT)架构为图像和语言表征使用了单独的权重集,与稳定扩散的以前版本相比,提高了文本理解和拼写能力。StableSwarmUI 是一个模块化的稳定扩散网络用户界面,其重点是让用户可以方便地使用动力工具,并提供高性能和可扩展性。原创 2024-06-15 05:45:00 · 880 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】解析开源:gradio:在Python中构建机器学习Web应用
Gradio 是一个开源 Python 软件包,可以让你快速为机器学习模型、API 或任意 Python 函数创建演示或网络应用。然后,你就可以使用 Gradio 内置的分享功能,在几秒钟内分享你的演示或网络应用程序的链接。无需 JavaScript、CSS 或网络托管经验!原创 2024-06-09 05:45:00 · 1823 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】解析开源:IDM-VTON:改进真实虚拟试穿的扩散模型
该论文研究了基于图像的虚拟试穿,即在一对分别描绘人物和服装的图像中,渲染出人物穿着特定服装的图像。与其他方法(如基于 GAN 的方法)相比,以前的工作将现有的基于示例的内绘扩散模型用于虚拟试穿,以提高生成的视觉效果的自然度,但它们未能保留服装的身份。为了克服这一局限性,我们提出了一种新型扩散模型,它能提高服装的保真度并生成真实的虚拟试穿图像。原创 2024-06-07 08:44:48 · 761 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】:解析开源项目:Champ 利用三维参数指导制作可控且一致的人体图像动画
介绍了一种人体图像动画制作方法,该方法利用潜在扩散框架中的三维人体参数模型,来增强 curernt 人体生成技术中的形状排列和运动引导。该方法利用 SMPL(Skinned Multi-Person Linear)模型作为三维人体参数模型,建立统一的身体形状和姿势表示。这有助于从源视频中准确捕捉复杂的人体几何和运动特征。原创 2024-06-03 16:24:23 · 902 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】:解析开源项目的论文:Physical Non-inertial Poser (PNP)
现有的惯性运动捕捉技术使用人体根坐标框架来估计局部姿势,并默认将其视为惯性框架。我们认为,当根坐标系具有线性加速度或旋转时,根坐标系在理论上应被视为非惯性系。在本文中,我们通过根据物理学原理精心设计的自动回归估计器,对非惯性框架中不可忽略的虚构力进行建模。有了虚力,与力相关的 IMU 测量(加速度)就能在非惯性框架中得到正确补偿,从而满足牛顿运动定律。在这种情况下,加速度与身体运动之间的关系是确定的、可学习的,我们训练一个神经网络对其进行建模,以获得更好的运动捕捉效果。原创 2024-06-02 21:11:04 · 374 阅读 · 0 评论 -
政安晨【零基础玩转各类开源AI项目】:基于Ubuntu系统本地部署使用GPT-SoVITS进行语音克隆与TTS语音生成
这是一款开源的AI音色克隆框架,目前只有TTS(文字转语音)功能,将来会更新变声功能。现在介绍如何搭建部署。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。GPT-SoVITS实现了:—— 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速—— 可以少量语音微调训练,也可不训练直接推理—— 可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种原创 2024-05-07 06:50:35 · 2205 阅读 · 3 评论 -
政安晨【零基础玩转各类开源AI项目】:在Kaggle上部署使用Stable Diffusion
Stable Diffusion 3 是Stability AI最新的文本到图像模型,在处理多主题提示、卓越的图像质量和拼写准确性方面实现了重大飞跃。目前,该模型正处于早期预览阶段,提供从 800M 到 8B 参数的各种配置,使各种硬件配置的使用更加平民化。原创 2024-04-03 09:46:06 · 1485 阅读 · 2 评论