每日 AI 项目与应用实例_普通网友的博客-CSDN博客

每日 AI 项目与应用实例

关注

文章平均质量分 90

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

关注数：文章数：659 文章阅读量：788354 文章收藏量：10783

作者: 普通网友

这个作者很懒，什么都没留下…

展开

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

原创 2025-04-01 00:57:50 · 769 阅读 · 0 评论
AutoGLM沉思：智谱AI推出首个能“边想边干“的自主智能体！深度研究+多模态交互，颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体，它突破性地将深度研究能力与实际操作能力融为一体，实现了AI从被动响应到主动执行的跨越式发展。

原创 2025-04-01 00:19:33 · 685 阅读 · 0 评论
Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架，通过法线图中间表示实现细节丰富的3D模型生成，其双阶段生成流程显著提升了几何保真度。

原创 2025-03-31 23:21:58 · 814 阅读 · 0 评论
32B小模型竟能吊打百亿参数？GLM-4-Air-0414：智谱AutoGLM沉思背后的模型，智能体开发迎来新纪元

GLM-4-Air-0414是智谱公司推出的320亿参数开源基座模型，通过优化预训练数据和对齐策略，在工具调用、联网搜索和代码生成等智能体任务中展现出卓越性能。

原创 2025-03-31 23:20:03 · 885 阅读 · 0 评论
FinGPT：华尔街颤抖！用股价训练AI，开源金融大模型预测股价准确率碾压分析师，量化交易新利器

FinGPT是基于Transformer架构的开源金融大模型，通过RLHF技术和实时数据处理能力，支持情感分析、市场预测等核心功能，其LoRA微调技术大幅降低训练成本。

原创 2025-03-31 23:19:08 · 755 阅读 · 0 评论
智谱推出深度思考模型 GLM-Z1-Air：推理速度相较DeepSeek-R1提升8倍，成本降低至1/30

GLM-Z1-Air是智谱公司基于GLM-4-Air-0414开发的深度思考模型，通过推理数据增强和对齐优化，在数理推理性能上达到顶尖水平，同时大幅提升推理效率并降低运行成本。

原创 2025-03-31 23:18:01 · 723 阅读 · 0 评论
PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

PaddleSpeech是百度飞桨团队推出的开源语音处理工具包，集成语音识别、合成、翻译等核心技术，基于PaddlePaddle框架提供高性能解决方案。

原创 2025-03-30 20:16:16 · 1356 阅读 · 0 评论
ChatAnyone：阿里通义黑科技！实时风格化肖像视频生成框架震撼发布

阿里巴巴通义实验室推出的ChatAnyone框架，通过高效分层运动扩散模型和混合控制融合技术，实现高保真度、自然度的实时肖像视频生成。

原创 2025-03-30 20:15:21 · 734 阅读 · 0 评论
PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架，通过单张图像重建3D场景并模拟物理行为，实现从静态图像到动态交互的突破性转换。

原创 2025-03-30 20:14:27 · 750 阅读 · 0 评论
OmniSQL：开源文本到SQL神器！自然语言秒转查询到复杂多表连接等SQL需求

OmniSQL是开源的文本到SQL转换模型，通过创新的数据合成框架生成250万条高质量样本，支持7B/14B/32B三种模型版本，能处理从简单查询到复杂多表连接等各种SQL需求。

原创 2025-03-30 20:13:32 · 845 阅读 · 0 评论
Vibe Draw：涂鸦秒变3D模型！开源AI建模神器解放创意生产力

Vibe Draw 是一款基于AI技术的开源3D建模工具，通过Next.js和FastAPI构建，能将用户绘制的2D草图智能转化为3D模型，并支持文本提示优化和场景构建。

原创 2025-03-30 20:11:44 · 859 阅读 · 0 评论
RoboBrain：智源开源具身大脑模型，32B参数实现跨机器人协作

智源研究院推出的开源具身大脑模型RoboBrain，通过多阶段训练策略和模块化设计，在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。

原创 2025-03-30 20:09:02 · 966 阅读 · 0 评论
BizGen：长文秒变信息图！AI排版黑科技碾压PPT，十语种一键出图

清华大学与微软联合推出的BizGen AI工具，能自动将长篇文章转化为专业信息图和幻灯片，支持10种语言和多种风格，排版准确率远超同类产品。

原创 2025-03-28 23:30:15 · 389 阅读 · 0 评论
TxGemma：谷歌DeepMind革命药物研发！270亿参数AI药理学家24小时在线

谷歌推出专为药物研发设计的TxGemma大模型，具备药物特性预测、生物文献筛选、多步推理等核心能力，提供20亿至270亿参数版本，显著提升治疗开发效率。

原创 2025-03-28 23:29:18 · 925 阅读 · 0 评论
TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术，能够从单张图像生成细节丰富的 3D 网格模型，在工业设计、游戏开发等领域具有广泛应用前景。

原创 2025-03-28 23:27:30 · 698 阅读 · 0 评论
TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSR是由Stability AI和VAST联合推出的开源3D生成模型，能在0.5秒内从单张2D图像快速生成高质量3D模型，支持游戏开发、影视制作等多领域应用。

原创 2025-03-28 23:26:36 · 555 阅读 · 0 评论
TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型，采用创新的 SparseFlex 表示方法，支持 1024³ 高分辨率建模，内存占用降低 82%，在细节捕捉和复杂结构处理上表现优异。

原创 2025-03-28 23:25:41 · 470 阅读 · 0 评论
QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型，不仅能解析图像视频内容，还能进行深度推理和创意生成，在数学解题、数据分析、穿搭建议等场景展现强大能力。

原创 2025-03-28 23:24:46 · 451 阅读 · 0 评论
谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

牛津大学与谷歌联合推出的Bolt3D技术，能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景，基于高斯溅射和几何多视角扩散模型，为游戏、VR/AR等领域带来革命性突破。

原创 2025-03-27 22:17:09 · 309 阅读 · 0 评论
Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手，通过实时语音交互在Qdrant向量数据库中进行语义搜索，支持多智能体协作处理复杂查询任务。

原创 2025-03-27 22:16:14 · 566 阅读 · 0 评论
阿里开源多模态全能王 Qwen2.5-Omni：创新Thinker-Talker架构，全面超越Gemini-1.5-Pro等竞品

阿里开源Qwen2.5-Omni多模态大模型，支持文本、图像、音频和视频输入，具备实时语音合成与流式响应能力，在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品，提供免费商用授权。

原创 2025-03-27 22:15:21 · 997 阅读 · 0 评论
Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列，具备物理常识理解和具身推理能力，支持视频输入和长链思考，可应用于机器人、自动驾驶等场景。

原创 2025-03-27 22:13:32 · 793 阅读 · 0 评论
Fin-R1：上海财大开源金融推理大模型！7B参数竟懂华尔街潜规则，评测仅差满血版DeepSeek3分

Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型，基于7B参数的Qwen2.5架构，在金融推理任务中表现出色，支持中英双语，可应用于风控、投资、量化交易等多个金融场景。

原创 2025-03-27 22:12:37 · 993 阅读 · 0 评论
Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术，通过测试时扩展（TTS）和Tree-of-Frames方法，显著提升视频生成的连贯性与文本匹配度，为影视制作、游戏开发等领域带来突破性解决方案。

原创 2025-03-27 22:11:42 · 675 阅读 · 0 评论
TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术，通过3D高斯溅射实现照片级虚拟人实时渲染，支持多信号驱动与90FPS流畅运行，将彻底改变电商直播与远程会议体验。

原创 2025-03-26 19:32:09 · 956 阅读 · 0 评论
pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具，能精准提取正文内容并转换为Markdown/EPUB格式，通过AI算法解决跨页连贯性问题，是学术研究和电子书制作的利器。

原创 2025-03-26 19:31:15 · 1125 阅读 · 0 评论
Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

原创 2025-03-26 19:30:21 · 307 阅读 · 0 评论
Gemini 2.5 Pro：谷歌「思维可视化」核弹！100万token生吞3本《战争与和平》

谷歌Gemini 2.5 Pro突破性支持100万token上下文窗口，在推理、代码生成和多模态处理方面全面超越GPT-4.5，即将扩展至200万token处理能力。

原创 2025-03-26 19:29:27 · 970 阅读 · 0 评论
Mureka O1：全球首款「思维链」音乐大模型！昆仑万维让AI作曲自我进化

昆仑万维推出的全球首款音乐推理大模型Mureka O1，引入思维链技术实现多轮自我优化，支持10种语言AI音乐创作，具备音色克隆、风格控制等特色功能，为开发者提供API和微调服务。

原创 2025-03-26 19:28:33 · 821 阅读 · 0 评论
StarVector：图像秒变矢量代码！开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型，能够将图像和文本转换为可编辑的SVG矢量图形，支持1B和8B两种规模，在SVG生成任务中表现出色。

原创 2025-03-25 23:14:32 · 1105 阅读 · 0 评论
Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型，在数学推理、视觉问答等任务中超越前代72B版本，支持图像细粒度理解和复杂逻辑分析，已在HuggingFace开源。

原创 2025-03-25 23:13:37 · 682 阅读 · 0 评论
LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型，能够从单张图像快速重建高质量可动画化的3D人体模型，支持实时渲染和姿态控制，适用于AR/VR、游戏开发等多种场景。

原创 2025-03-25 23:12:43 · 810 阅读 · 0 评论
ReasonGraph：别让AI成黑箱！这个开源工具把大模型的脑回路画给你看

ReasonGraph是一款开源的可视化分析工具，能将大语言模型的复杂推理过程转化为直观图表，支持50+主流模型和多种推理方法，帮助开发者快速理解AI思考逻辑并优化模型表现。

原创 2025-03-25 21:02:28 · 1145 阅读 · 0 评论
DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架，基于强化学习和自回归变换器，能够生成高质量的 3D 网格，适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

原创 2025-03-24 22:40:55 · 878 阅读 · 0 评论
Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

Soundwave 是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解，支持语音翻译、语音问答、情绪识别等功能，广泛应用于智能语音助手、语言学习等领域。

原创 2025-03-24 22:40:01 · 830 阅读 · 0 评论
Motia：程序员福音！AI智能体三语言混编，零基础秒级部署

Motia 是一款专为软件工程师设计的 AI Agent 开发框架，支持多种编程语言，提供零基础设施部署、模块化设计和内置可观测性功能，帮助开发者快速构建和部署智能体。

原创 2025-03-24 22:39:08 · 616 阅读 · 0 评论
RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台，支持本地 RAG 方案，集成多种大语言模型和多媒体功能，适合企业和个人开发者快速搭建个性化 AI 应用。

原创 2025-03-24 22:38:14 · 972 阅读 · 0 评论
MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型，结合视觉与语音输入，支持实时交互，适用于无障碍应用、智能家居控制等多个场景。

原创 2025-03-24 22:37:20 · 686 阅读 · 0 评论
BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法，通过识别重用相邻时间步中的结构相似特征，减少冗余计算，最高可加速50%，同时保持生成质量。

原创 2025-03-24 22:36:27 · 601 阅读 · 0 评论
InfiniteYou：写真AI革命！字节核弹级AI秒出定制人像，身份保持度拉满

InfiniteYou 是字节跳动推出的基于扩散变换器的身份保持图像生成框架，通过 InfuseNet 注入身份特征，结合多阶段训练策略，生成高质量、高相似度的图像，兼容多种现有工具，适用于多种应用场景。

原创 2025-03-24 22:35:33 · 722 阅读 · 0 评论

每日 AI 项目与应用实例

作者: 普通网友

Kiss3DGen：基于图像扩散模型的3D资产生成框架

AutoGLM沉思：智谱AI推出首个能“边想边干“的自主智能体！深度研究+多模态交互，颠覆传统AI工作模式

Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

32B小模型竟能吊打百亿参数？GLM-4-Air-0414：智谱AutoGLM沉思背后的模型，智能体开发迎来新纪元

FinGPT：华尔街颤抖！用股价训练AI，开源金融大模型预测股价准确率碾压分析师，量化交易新利器

智谱推出深度思考模型 GLM-Z1-Air：推理速度相较DeepSeek-R1提升8倍，成本降低至1/30

PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

ChatAnyone：阿里通义黑科技！实时风格化肖像视频生成框架震撼发布

PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

OmniSQL：开源文本到SQL神器！自然语言秒转查询到复杂多表连接等SQL需求

Vibe Draw：涂鸦秒变3D模型！开源AI建模神器解放创意生产力

RoboBrain：智源开源具身大脑模型，32B参数实现跨机器人协作

BizGen：长文秒变信息图！AI排版黑科技碾压PPT，十语种一键出图

TxGemma：谷歌DeepMind革命药物研发！270亿参数AI药理学家24小时在线

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

阿里开源多模态全能王 Qwen2.5-Omni：创新Thinker-Talker架构，全面超越Gemini-1.5-Pro等竞品

Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

Fin-R1：上海财大开源金融推理大模型！7B参数竟懂华尔街潜规则，评测仅差满血版DeepSeek3分

Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

Gemini 2.5 Pro：谷歌「思维可视化」核弹！100万token生吞3本《战争与和平》

Mureka O1：全球首款「思维链」音乐大模型！昆仑万维让AI作曲自我进化

StarVector：图像秒变矢量代码！开源多模态模型让SVG生成告别手绘

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

ReasonGraph：别让AI成黑箱！这个开源工具把大模型的脑回路画给你看

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

Motia：程序员福音！AI智能体三语言混编，零基础秒级部署

RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

InfiniteYou：写真AI革命！字节核弹级AI秒出定制人像，身份保持度拉满