自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

士多啤梨先生の博客

04月 03月 02月 01月

原创 Praison AI：LangChain危险了！这个低代码框架让AI智能体「自主协作」，1行代码搞定任务编排

Praison AI 是一个开源的多智能体框架，支持低代码创建和管理AI代理，提供多种流程类型和集成选项，适用于企业流程自动化、智能客服等场景。

2025-02-14 23:21:25 497

原创仅7B的模型数学推理能力完虐70B？MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型，专注于提升推理能力，具备强大的自回归搜索和自我纠错功能。

2025-02-14 11:22:40 905

原创 DeepClaude：结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台，支持 API 调用和零延迟的即时响应

DeepClaude 是一个开源的 AI 应用开发平台，结合了 DeepSeek R1 和 Claude 模型的优势，提供即时响应、端到端加密和高度可配置的功能。

2025-02-13 23:55:07 1079

原创 Goedel-Prover：专为自动化数学问题的形式证明生成而设计的 LLM，快速解决形式化数学问题

Goedel-Prover 是一款由普林斯顿大学和清华大学等机构联合推出的开源模型，专注于自动化数学问题的形式证明生成。它通过将自然语言数学问题翻译成形式语言（如 Lean 4），显著提升了数学问题的证明效率。

2025-02-13 23:54:13 679

原创 Data Formulator：微软开源的数据可视化 AI 工具，通过自然语言交互快速创建复杂的数据图表

Data Formulator 是微软研究院推出的开源 AI 数据可视化工具，结合图形化界面和自然语言输入，帮助用户快速创建复杂的可视化图表。

2025-02-13 23:53:19 1316

原创 Magic 1-For-1：北大联合英伟达推出的高质量视频生成量化模型，支持在消费级GPU上快速生成

北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型，优化内存消耗和推理延迟，快速生成高质量视频片段。

2025-02-13 23:52:24 739

原创 InspireMusic：阿里通义实验室开源的音乐生成模型，支持文本或音频生成多种风格的音乐

阿里通义实验室开源的音乐生成技术，支持通过简单描述快速生成多种风格的高质量音乐作品。

2025-02-13 23:51:30 846

原创 Lumina-Video：上海 AI Lab 开源视频生成框架，动态程度可控，支持多分辨率

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架，支持高质量视频生成、动态程度控制和多分辨率生成。

2025-02-13 23:50:36 901

原创 AxBench：斯坦福大学推出评估语言模型控制方法的基准测试框架

AxBench 是由斯坦福大学推出，用于评估语言模型可解释性方法的基准测试框架，支持概念检测和模型转向任务，帮助研究者系统地比较不同控制技术的有效性。

2025-02-13 23:49:41 615

原创 Kiln AI：零代码实现微调模型！自动生成合成数据与微调模型的开源平台

Kiln AI 是一款开源的 AI 开发工具，支持零代码微调多种语言模型，生成合成数据，团队协作开发，自动部署。帮助用户快速构建高质量的 AI 模型。

2025-02-11 22:12:47 1437

原创 LLaVA-Med：微软推出专为临床放射学优化和报告生成的多模态模型

LLaVA-Med是微软推出的小型多模态模型，专注于高效生成高质量的胸部X光放射学报告，支持快速临床部署。

2025-02-11 22:11:53 1046

原创 ACE++：输入想法就能完成图像创作和编辑！阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具，支持多种任务，如高质量人物肖像生成、主题一致性保持和局部图像编辑。

2025-02-11 22:10:47 881

原创 MedRAX：专注于胸部X光检查的AI医学推理智能体，帮助医生快速解读胸部X光片

MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体，整合了多种最先进的分析工具，支持多模态推理和动态任务分解。

2025-02-11 22:09:51 932

原创 FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架，通过两阶段方法显著降低计算成本，快速生成高质量视频。

2025-02-11 22:08:55 702

原创 Airweave：快速集成应用数据打造AI知识库的开源平台，支持多源整合和自动同步数据

Airweave 是一个开源工具，能够将应用程序的数据同步到图数据库和向量数据库中，实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。

2025-02-11 22:07:57 581

原创 Satori：快速体验MIT与哈佛推出7B参数的推理专家模型，具备自回归搜索和自我纠错能力

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型，专注于提升推理能力，具备强大的自回归搜索和自我纠错功能。

2025-02-11 22:07:02 1015

原创 LangBot：无缝集成到QQ、微信等消息平台的AI聊天机器人平台

LangBot 是一个开源的多模态即时聊天机器人平台，支持多种即时通信平台和大语言模型，具备多模态交互、插件扩展和Web管理面板等功能。

2025-02-11 22:06:04 1490

原创 Sonic：自动对齐音频与唇部动作，一键合成配音动画！腾讯与浙大联合推出音频驱动肖像动画生成框架

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架，支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成，并提供用户可调节性。

2025-02-10 22:14:55 621

原创 FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

2025-02-10 21:14:53 1483 2

原创 DeepRant：一款专为国际游戏玩家设计的翻译工具，一键翻译聊天对话，无需切出游戏

专为游戏玩家设计的多语言快捷翻译工具，支持多种翻译模式和主流语言，基于Tauri和React开发。

2025-02-10 21:13:57 780

原创 Ola：清华联合腾讯等推出的全模态语言模型！实现对文本、图像、视频和音频的全面理解

Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型，支持文本、图像、视频和音频输入，并具备实时流式解码功能。

2025-02-10 21:13:00 443

原创 Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型，能够将一种语言的语音实时翻译成另一种语言的语音或文本，支持高保真度和低延迟。

2025-02-10 21:12:05 671

原创 Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

Agno 是一个用于构建多模态智能体的轻量级框架，支持文本、图像、音频和视频等多种数据模态，能够快速创建智能体并实现高效协作。

2025-02-10 21:11:08 1126

原创 Eino：字节跳动开源基于Golang的AI应用开发框架，组件化设计助力构建AI应用

Eino 是字节跳动开源的大模型应用开发框架，帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。

2025-02-10 21:09:38 1385

原创 exo：22.1K Star！一个能让任何人利用日常设备构建AI集群的强大工具，组成一个虚拟GPU在多台设备上并行运行模型

exo 是一款由 exo labs 维护的开源项目，能够让你利用家中的日常设备（如 iPhone、iPad、Android、Mac 和 Linux）构建强大的 AI 集群，支持多种大模型和分布式推理。

2025-02-10 21:08:42 1290

原创 AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

AstrBot 是一个开源的多平台聊天机器人及开发框架，支持多种大语言模型和消息平台，具备多轮对话、语音转文字等功能。

2025-02-09 19:54:29 3518

原创 Lumina-Image 2.0：上海 AI Lab 开源的统一图像生成模型，支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型，参数量为26亿，基于扩散模型和Transformer架构，支持多种推理求解器，能生成高质量、多风格的图像。

2025-02-09 19:53:36 1012

原创 BEN2：一键快速抠图！自动移除图像和视频中的背景，支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型，专注于从图像和视频中快速移除背景并提取前景，支持高分辨率处理和GPU加速。

2025-02-09 19:52:42 1087

原创 Repomix：8.1K Star！轻松将整个代码库打包为AI友好格式的开源工具，使代码库更易于AI理解

Repomix 是一款强大的工具，能够将整个代码库打包成AI友好的单个文件，支持多种输出格式和安全检查。

2025-02-08 23:44:34 725

原创 LIMO：上海交大推出高效推理方法，仅需817条训练样本就能激活大语言模型的复杂推理能力

LIMO 是由上海交通大学推出的一种高效推理方法，通过极少量的高质量训练样本激活大语言模型的复杂推理能力。

2025-02-08 23:43:40 951

原创 AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AnythingLLM 是一个全栈应用程序，能够将文档、资源转换为上下文，支持多种大语言模型和向量数据库，提供智能聊天功能。

2025-02-08 23:42:45 2139

原创 JoyGen：用音频生成3D说话人脸视频，快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架，支持多语言、高质量视觉效果和精确的唇部与音频同步。

2025-02-08 23:41:51 653

原创蚝油菜花的创作历程：1825天的坚持与成长

自2020年2月9日发布第一篇技术博客以来，我已在创作的道路上坚持了1825天。从编程新手到具备扎实技术功底的开发者，我不仅掌握了多种编程语言和技术栈，还培养了解决复杂问题的思维方式。尽管面临时间管理和技术表达的挑战，我通过坚持不懈，找到了自己的写作风格。未来，我将继续深耕技术领域，探索前沿技术，提升写作能力，帮助更多人理解并爱上编程。感谢每一位陪伴我成长的读者和支持我的朋友。

2025-02-07 22:53:33 481

原创 MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用，支持多模态交互、多种主流模型选择、离线运行及性能优化。

2025-02-07 22:10:17 1866

原创 DiffSplat：输入文本或图像，2秒内生成3D建模！北大联合字节开源3D建模生成框架

DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架，能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵，并确保多视图下的一致性。

2025-02-07 22:09:19 582

原创 Open-Deep-Research：开源复现版 Deep Research，支持切换多种大模型，不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体，支持多种语言模型，具备实时数据提取、多源数据整合和AI推理功能。

2025-02-07 22:08:10 1138

原创 OpenDeepResearcher：开源 AI 研究工具，自动完成搜索、评估、提取和生成报告

OpenDeepResearcher 是一款开源 AI 研究工具，支持异步处理、去重功能和 LLM 驱动的决策，帮助用户高效完成复杂的信息查询和分析任务。

2025-02-06 21:20:47 382 1

原创 node-DeepResearch：开源复现版OpenAI Deep Research，支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目，支持多步推理和复杂查询，帮助用户逐步解决问题。

2025-02-05 20:39:28 929

原创 MILS：无需对LLM进行额外训练就能处理多模态任务，Meta AI提出零样本生成多模态描述方法

MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法，支持图像、视频和音频的描述生成，无需额外训练。

2025-02-05 20:38:32 809

原创 Oumi：开源的AI模型一站式开发平台，涵盖训练、评估和部署模型的综合性平台

Oumi 是一个完全开源的 AI 平台，支持从 1000 万到 4050 亿参数的模型训练，涵盖文本和多模态模型，提供零样板代码开发体验。

2025-02-03 23:11:03 1295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除