3 个令人惊艳的 AI 项目，开源了！

最新推荐文章于 2024-05-16 11:26:31 发布

VIP_CQCRE

最新推荐文章于 2024-05-16 11:26:31 发布

阅读量838

点赞数

文章标签：人工智能深度学习机器学习计算机视觉神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg3MjU3NzU1OA==&mid=2247517073&idx=1&sn=a76a038c72712e34437f59fb28319db3&chksm=ceefece8f99865feebf242c2ff081ca200457987973322d011cddbb4a361eaa0c1591dac26a3&scene=126&sessionid=0

版权

这是「进击的Coder」的第 841 篇技术分享

作者：小 G

来源：GitHubDaily

“

阅读本文大概需要 4 分钟。

”

过去一周，从外界看，AI 貌似放缓了进步速度，但只有身处其中的人才能知道，AI 一直没有停下进化的脚步。

以下是 GitHub 过去一周，诞生的多个实用的 AI 开源项目，今天给大家做下介绍。

1. Meta 开源 AI 生成音乐模型

Meta 今天在 GitHub 开源了一个 Python 库：Audiocraft，可直接用 AI 生成音乐。

点击播放下方视频，查看音乐生成效果：

GitHub：https://github.com/facebookresearch/audiocraft

里面主要用到了一个名为 MusicGen 的音乐生成模型，MusicGen 是一个单级自回归 Transformer 模型，在 32kHz EnCodec 分词器上训练，具有 4 个以 50Hz 采样的码本。

与 MusicLM 等现有方法不同，MusicGen 不需要自我监督的语义表示，它一次生成所有 4 个码本。

卷完了文生文和文生图，接下来就看文本生成音乐要怎么发力了。

2. Diffusers 发布重磅更新

Diffusers v0.17.0 正式发布，改进了 LoRA、Kandinsky 2.1、Torch 编译加速等特性。

Diffusers 是 GitHub 上一个知名的预训练扩散模型首选库，可用于生成图像、音频，甚至分子的 3D 结构。

GitHub：https://github.com/huggingface/diffusers

无论你是在寻找简单的推理解决方案还是训练自己的扩散模型，Diffusers 均可作为模块化工具箱提供支持。

该库设计重在可用性与可定制性，主要提供以下 3 个核心组件：

最先进的扩散管道，只需几行代码即可在推理中运行；
可互换的噪声调度器，用于不同的扩散速度和输出质量；
预训练模型可用作构建块，并与调度程序结合使用，用于创建自己的端到端扩散系统。

该项目由 Hugging Face 免费开源，你可以用它来快速训练 ControlNet，以便进一步提升 AI 绘画的效果与质量。

3. 万物皆可识别

Meta 之前在 GitHub 上开源过一个 Segment Anything Model，可自动实现图像切割。

不过该模型在图像定位表现出色，但在图像识别方面便反响平平。

为此，复旦大学联合 OPPO 研究员、国际数字经济学院，在 GitHub 开源了一个强大的图像标记基础模型：Recognize Anything Model (RAM)。

该模型采用一种新的图像标记范例，可高精度地识别任何常见类别，并利用大规模图像文本对进行训练，而不是手动注释。

GitHub：https://github.com/xinyu1205/Recognize_Anything-Tag2Text

RAM 的开发包括四个关键步骤：

通过自动文本语义解析大规模获取无注释图像标签；
使用统一标题和标记任务，训练初步模型进行自动注释，分别由原始文本和解析标签监督；
利用数据引擎生成额外注释并清除不正确的注释；
利用处理后的数据对模型进行再训练，并使用更小但质量更高的数据集进行微调。

经过众多基准测试评估，RAM 的标记能力颇为优秀，效果明显优于 CLIP 和 BLIP。值得注意的是，RAM 甚至超越了完全监督的方式，甚至可媲美 Google API。

于此同时，该项目里面还包含着一个名为 Tag2Text 的工具，可直接批量化给图像中的指定对象，生成标签。

如果结合 Meta 开源的 SAM 模型，那我们就能做到批量移除图像中的指定对象，进一步提升图像处理效率。

以上，就是本期给大家推荐的 AI 开源项目。

End

【福利来袭】

亲爱的读者们，我们很高兴地宣布，我们与清华大学出版社合作，为大家带来了一波 618 特别赠书福利！🎉🎁

📚如何参与？

在评论区留言，告诉我们您想要的书籍名称以及为什么想要这本书（书籍列表请扫描下方海报二维码查看）。
邀请您的朋友们为您的留言点赞，点赞前五名的留言将获得赠书资格！
获得赠书资格者，稍后我们将提供书单供您选择。

📢活动细则：

活动时间：即日起至 6 月 18 日 24:00。
获奖名单将在活动结束后的 3 个工作日内公布。
请确保您的留言包含书名及理由，以便我们更好地了解您的需求。
请注意，中奖者需在公布名单后的 7 天内联系我们提供收货信息，逾期未联系将视为自动放弃。

赶快行动起来吧！分享您的心愿书单，让我们一起在知识的海洋里遨游！📖💡

祝您好运！🍀 （请扫描下方二维码查看书籍列表）

618，清华社 IT BOOK 多得图书活动开始啦！活动时间为 2023 年 6 月 7 日至 6 月 18 日，清华社为您精选多款高分好书，涵盖了 C++、Java、Python、前端、后端、数据库、算法与机器学习等多个 IT 开发领域，适合不同层次的读者。全场 5 折，扫码领券更有优惠哦！快来京东查看详情吧！

VIP_CQCRE

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
3 个令人惊艳的 AI 项目，开源了！

这是「进击的Coder」的第 841篇技术分享作者：小 G来源：GitHubDaily“ 阅读本文大概需要 4 分钟。 ”过去一周，从外界看，AI 貌似放缓了进步速度，但只有身处其中的人才能知道，AI 一直没有停下进化的脚步。以下是 GitHub 过去一周，诞生的多个实用的 AI 开源项目，今天给大家做下介绍。1. Meta 开源 AI 生成音乐模型Meta 今天在 GitHub 开源了一个 P...
复制链接

扫一扫