【AI News | 20250307】每日AI进展-CSDN博客

本文链接：https://blog.csdn.net/qq_40894600/article/details/146107250

AI Repos

1、owl
Manus类项目：OWL，GAIA上57.7%，超过Huggingface的Open Deep Research的55.15%。在整个复刻过程中，OWL对Manus的技术路线做了一波逆向工程。把Manus的核心工作流拆成了6步：
（1）启动一个Ubuntu容器（Agent远程工位就位）
（2）知识召回（把之前学过的内容捡起来用）
（3）连接数据源（数据库、网盘、云存储全覆盖）
（4）把数据挂载到Ubuntu（Agent的搬砖时刻）
（5）自动生成http://todo.md（规划任务+写待办清单）
（6）Ubuntu工具链+外接工具组合拳，执行全流程任务
所有Manus里智能体用到的操作，作者都会给OWL配齐。启动一个Ubuntu容器，OWL就能随时随地远程办公了。此前，他们开源过一个跨平台操作系统的通用智能体：CRAB，不止能操控Ubuntu容器，还能直接控制手机和电脑里的任何应用，后面他们会把CRAB融入OWL里，实现跨平台、多设备、全场景远程操作。
在这里插入图片描述

2、OpenManus
开源版Manus！
支持在电脑上完成很多任务，包括网页浏览、文件操作、写代码等。OpenManus使用了传统的ReAct模式，优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理，需要注意，Manus有使用Plan进行规划。OpenManus目前也已初步加入了具有 Plan&ReAct的功能，正在优化调试，大家也可以尝试更改System Prompt 让OpenManus学会记录文档和Todo List的习惯。主要依赖的几个工具：
（1）PythonExecute：执行Python代码与电脑系统交互，可以进行文件操作、数据处理、自动化任务等；
（2）FileSaver：保存文件到本地，比如txt、python、html等；
（3）BrowserUseTool：打开、浏览和控制浏览器；
（4）GoogleSearch：进行网络信息检索；
在这里插入图片描述

3、NotaGen
歌曲生成模型之后，开源音乐生成模型来了：NotaGen，可以指定音乐时期、作曲家以及乐器，听起来品质很高。强项是古典音乐，也支持流行音乐。可以指定时期，巴洛克的、古典主义的、浪漫主义的；也可以指定乐器，键盘的、管弦等
在这里插入图片描述

4、autoMate
一款 AI 驱动的本地自动化工具，让 AI 成为你的"数字员工"，通过自然语言描述任务就能自动操作电脑界面，完成复杂工作流程。支持本地部署，保护数据安全和隐私，无需编程知识。
在这里插入图片描述

5、dagger
Docker 创始人 Solomon Hykes 在 X 平台宣布，Dagger 或成 Anthropic Claude Code 的开源替代品。Dagger 是一个组合工作流的运行时环境，其新模块系统支持将智能特性集成至应用，类似 Claude Code 的终端编码加速功能。Hykes 强调其支持任意模型，内置 MCP，并展示用 GPT-4o 创建 Kubernetes 集群等实例。目前项目在 GitHub 上以 Apache-2.0 许可开发，具备可重复性、多模型支持等优势，旨在提升开发者效率，应对生成式 AI 驱动的需求。

AI News

1、Tavus数字人
效果看起来也太真实了，整合了视觉、语音和情感智能，让虚拟人拥有情感表达、情感理解能力，由三个核心模型组成：
（1）Phoenix-3：实时全脸渲染模型，能生成复杂的微表情和情绪，包括眉毛、脸庞、眼睛等，可以实时调整表情；
（2）Raven-0：能持续处理视觉上下文，读取情绪，理解情绪变化，并智能回应；
（3）Sparrow-0：用来控制对话的节奏，判断什么时候该说、什么时候该听，响应速度快；

2、Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！
Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素，特点：
（1）原生多语言和多模态，支持数千种文字、字体以及语言；
（2）能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX 格式等，尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档；
（3）在多个文档分析方面的基准测试中优于其他OCR模型，尤其在扫描文档、表格和数学公式识别上表现出色；
（4）处理速度很快，单节点每分钟可处理2000页；
（5）支持使用文档作为提示，以结构化格式比如 JSON输出；
（6）可选择性自托管；

3、Windsurf Wave 4 发布：新增 Preview 功能，支持实时预览和精准编辑
Windsurf Wave 4 正式发布，该版本主要新增了 Preview 功能。生成的前端代码可以在编辑器中实时预览，并且支持指哪改哪（类似 V0），能够精准地将上下文发送给 Windsurf。

Others

1、手把手教你，AI生成超高品质网站
分享下调教AI方法：
（1）尽量找业内最好网站的截图让AI生成页面，因为截图比嘴说抽象的前端细节，效果好一万倍，因为人理解的前端、好看和AI理解的非常不一样；
（2）让AI生成HTML单文件，这样马上就可以浏览器看效果，生成HTML效果全部OK后再让AI转vue组件；你直接上组件，会导致看效果之前还要整合到项目中，效率太低；
（3） AI生成的HTML后要细节微调，比如，文案改成什么苹果高冷风，图片跟文案搭配自己网上找图（不说AI会因为版权搞占位符，布局是乱的），图标用SVG图标（这样后期你可以自己找合适的让AI精确换），动效平滑点有加速度，哪个div的样式要微调一下（这个浏览器开发工具定位）；
（4）第三步搞的差不多以后，基本上可以实现80%的效果，让AI从HTML转换成vue组件，这时候针对不合适的图标直接复制你网上找好的svg图标代码给他让它替换，因为AI现在对抽象图标的理解不够，比如一个小火箭图标你靠嘴说AI会给你画成七巧板这种让你哭笑不得的效果。但是你直接给他一个svg代码让它替换后线条调细一点就很nice；
（5）到这一步基本上可以获得一个完整的vue组件，直接copy至你的项目，就可以持续集成了，不要让AI集成整个网站，网站大了上下文不够，sonnect 200k刚好适合生成一个完美的vue页面；
（6）基本上做到这里，你抄袭的网站可以还原到80%，但是不要再花心思指挥AI到100%的效果，因为做不到，简单来说再往下就是画蛇添足浪费时间，不要问我为什么知道。这时候把demo交给专业前端工程师微调即可；
上面就是完整的AI建站攻略，时间分布：基本上我找各种网站好看截图花了3天时间，完整15个vue页面靠说中文花了5天，前端专业工程师微调100%细节花了5天，云端资源静态化cdn部署1天。
http://lazycat.cloud PC版本这样质量的网站，全程14人日，恐怖吧？
个人觉得，最先失业的就是低级前端工程师，有审美的产品经理和高级前端工程师不会失业。