
每日 AI 项目与应用实例
文章平均质量分 90
分享最新 AI 资讯,收集 AI 模型、工具、框架等开源项目。
普通网友
这个作者很懒,什么都没留下…
展开
-
Kiss3DGen:基于图像扩散模型的3D资产生成框架
Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象,支持文本到3D、图像到3D等多种生成任务。原创 2025-04-01 00:57:50 · 769 阅读 · 0 评论 -
AutoGLM沉思:智谱AI推出首个能“边想边干“的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。原创 2025-04-01 00:19:33 · 685 阅读 · 0 评论 -
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技
Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。原创 2025-03-31 23:21:58 · 814 阅读 · 0 评论 -
32B小模型竟能吊打百亿参数?GLM-4-Air-0414:智谱AutoGLM沉思背后的模型,智能体开发迎来新纪元
GLM-4-Air-0414是智谱公司推出的320亿参数开源基座模型,通过优化预训练数据和对齐策略,在工具调用、联网搜索和代码生成等智能体任务中展现出卓越性能。原创 2025-03-31 23:20:03 · 885 阅读 · 0 评论 -
FinGPT:华尔街颤抖!用股价训练AI,开源金融大模型预测股价准确率碾压分析师,量化交易新利器
FinGPT是基于Transformer架构的开源金融大模型,通过RLHF技术和实时数据处理能力,支持情感分析、市场预测等核心功能,其LoRA微调技术大幅降低训练成本。原创 2025-03-31 23:19:08 · 755 阅读 · 0 评论 -
智谱推出深度思考模型 GLM-Z1-Air:推理速度相较DeepSeek-R1提升8倍,成本降低至1/30
GLM-Z1-Air是智谱公司基于GLM-4-Air-0414开发的深度思考模型,通过推理数据增强和对齐优化,在数理推理性能上达到顶尖水平,同时大幅提升推理效率并降低运行成本。原创 2025-03-31 23:18:01 · 723 阅读 · 0 评论 -
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。原创 2025-03-30 20:16:16 · 1356 阅读 · 0 评论 -
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。原创 2025-03-30 20:15:21 · 734 阅读 · 0 评论 -
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。原创 2025-03-30 20:14:27 · 750 阅读 · 0 评论 -
OmniSQL:开源文本到SQL神器!自然语言秒转查询到复杂多表连接等SQL需求
OmniSQL是开源的文本到SQL转换模型,通过创新的数据合成框架生成250万条高质量样本,支持7B/14B/32B三种模型版本,能处理从简单查询到复杂多表连接等各种SQL需求。原创 2025-03-30 20:13:32 · 845 阅读 · 0 评论 -
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。原创 2025-03-30 20:11:44 · 859 阅读 · 0 评论 -
RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作
智源研究院推出的开源具身大脑模型RoboBrain,通过多阶段训练策略和模块化设计,在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。原创 2025-03-30 20:09:02 · 966 阅读 · 0 评论 -
BizGen:长文秒变信息图!AI排版黑科技碾压PPT,十语种一键出图
清华大学与微软联合推出的BizGen AI工具,能自动将长篇文章转化为专业信息图和幻灯片,支持10种语言和多种风格,排版准确率远超同类产品。原创 2025-03-28 23:30:15 · 389 阅读 · 0 评论 -
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。原创 2025-03-28 23:29:18 · 925 阅读 · 0 评论 -
TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模
TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。原创 2025-03-28 23:27:30 · 698 阅读 · 0 评论 -
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。原创 2025-03-28 23:26:36 · 555 阅读 · 0 评论 -
TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%
TripoSF 是 VAST AI 推出的新一代 3D 基础模型,采用创新的 SparseFlex 表示方法,支持 1024³ 高分辨率建模,内存占用降低 82%,在细节捕捉和复杂结构处理上表现优异。原创 2025-03-28 23:25:41 · 470 阅读 · 0 评论 -
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。原创 2025-03-28 23:24:46 · 451 阅读 · 0 评论 -
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。原创 2025-03-27 22:17:09 · 309 阅读 · 0 评论 -
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。原创 2025-03-27 22:16:14 · 566 阅读 · 0 评论 -
阿里开源多模态全能王 Qwen2.5-Omni:创新Thinker-Talker架构,全面超越Gemini-1.5-Pro等竞品
阿里开源Qwen2.5-Omni多模态大模型,支持文本、图像、音频和视频输入,具备实时语音合成与流式响应能力,在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品,提供免费商用授权。原创 2025-03-27 22:15:21 · 997 阅读 · 0 评论 -
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。原创 2025-03-27 22:13:32 · 793 阅读 · 0 评论 -
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。原创 2025-03-27 22:12:37 · 993 阅读 · 0 评论 -
Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动
清华大学与腾讯联合推出的Video-T1技术,通过测试时扩展(TTS)和Tree-of-Frames方法,显著提升视频生成的连贯性与文本匹配度,为影视制作、游戏开发等领域带来突破性解决方案。原创 2025-03-27 22:11:42 · 675 阅读 · 0 评论 -
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。原创 2025-03-26 19:32:09 · 956 阅读 · 0 评论 -
pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文
pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。原创 2025-03-26 19:31:15 · 1125 阅读 · 0 评论 -
Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲
昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。原创 2025-03-26 19:30:21 · 307 阅读 · 0 评论 -
Gemini 2.5 Pro:谷歌「思维可视化」核弹!100万token生吞3本《战争与和平》
谷歌Gemini 2.5 Pro突破性支持100万token上下文窗口,在推理、代码生成和多模态处理方面全面超越GPT-4.5,即将扩展至200万token处理能力。原创 2025-03-26 19:29:27 · 970 阅读 · 0 评论 -
Mureka O1:全球首款「思维链」音乐大模型!昆仑万维让AI作曲自我进化
昆仑万维推出的全球首款音乐推理大模型Mureka O1,引入思维链技术实现多轮自我优化,支持10种语言AI音乐创作,具备音色克隆、风格控制等特色功能,为开发者提供API和微调服务。原创 2025-03-26 19:28:33 · 821 阅读 · 0 评论 -
StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘
StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。原创 2025-03-25 23:14:32 · 1105 阅读 · 0 评论 -
Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神
阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。原创 2025-03-25 23:13:37 · 682 阅读 · 0 评论 -
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。原创 2025-03-25 23:12:43 · 810 阅读 · 0 评论 -
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。原创 2025-03-25 21:02:28 · 1145 阅读 · 0 评论 -
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。原创 2025-03-24 22:40:55 · 878 阅读 · 0 评论 -
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。原创 2025-03-24 22:40:01 · 830 阅读 · 0 评论 -
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。原创 2025-03-24 22:39:08 · 616 阅读 · 0 评论 -
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。原创 2025-03-24 22:38:14 · 972 阅读 · 0 评论 -
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。原创 2025-03-24 22:37:20 · 686 阅读 · 0 评论 -
BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速
BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法,通过识别重用相邻时间步中的结构相似特征,减少冗余计算,最高可加速50%,同时保持生成质量。原创 2025-03-24 22:36:27 · 601 阅读 · 0 评论 -
InfiniteYou:写真AI革命!字节核弹级AI秒出定制人像,身份保持度拉满
InfiniteYou 是字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,结合多阶段训练策略,生成高质量、高相似度的图像,兼容多种现有工具,适用于多种应用场景。原创 2025-03-24 22:35:33 · 722 阅读 · 0 评论