AI Repos
1、owl
Manus类项目:OWL,GAIA上57.7%,超过Huggingface的Open Deep Research的55.15%。在整个复刻过程中,OWL对Manus的技术路线做了一波逆向工程。把Manus的核心工作流拆成了6步:
(1)启动一个Ubuntu容器(Agent远程工位就位)
(2)知识召回(把之前学过的内容捡起来用)
(3)连接数据源(数据库、网盘、云存储全覆盖)
(4)把数据挂载到Ubuntu(Agent的搬砖时刻)
(5)自动生成http://todo.md(规划任务+写待办清单)
(6)Ubuntu工具链+外接工具组合拳,执行全流程任务
所有Manus里智能体用到的操作,作者都会给OWL配齐。启动一个Ubuntu容器,OWL就能随时随地远程办公了。此前,他们开源过一个跨平台操作系统的通用智能体:CRAB,不止能操控Ubuntu容器,还能直接控制手机和电脑里的任何应用,后面他们会把CRAB融入OWL里,实现跨平台、多设备、全场景远程操作。
2、OpenManus
开源版Manus!
支持在电脑上完成很多任务,包括网页浏览、文件操作、写代码等。OpenManus使用了传统的ReAct模式,优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理,需要注意,Manus有使用Plan进行规划。OpenManus目前也已初步加入了具有 Plan&ReAct的功能,正在优化调试,大家也可以尝试更改System Prompt 让OpenManus学会记录文档和Todo List的习惯。主要依赖的几个工具:
(1)PythonExecute:执行Python代码与电脑系统交互,可以进行文件操作、数据处理、自动化任务等;
(2)FileSaver:保存文件到本地,比如txt、python、html等;
(3)BrowserUseTool:打开、浏览和控制浏览器;
(4)GoogleSearch:进行网络信息检索;
3、NotaGen
歌曲生成模型之后,开源音乐生成模型来了:NotaGen,可以指定音乐时期、作曲家以及乐器,听起来品质很高。强项是古典音乐,也支持流行音乐。可以指定时期,巴洛克的、古典主义的、浪漫主义的;也可以指定乐器,键盘的、管弦等
4、autoMate
一款 AI 驱动的本地自动化工具,让 AI 成为你的"数字员工",通过自然语言描述任务就能自动操作电脑界面,完成复杂工作流程。支持本地部署,保护数据安全和隐私,无需编程知识。
5、dagger
Docker 创始人 Solomon Hykes 在 X 平台宣布,Dagger 或成 Anthropic Claude Code 的开源替代品。Dagger 是一个组合工作流的运行时环境,其新模块系统支持将智能特性集成至应用,类似 Claude Code 的终端编码加速功能。Hykes 强调其支持任意模型,内置 MCP,并展示用 GPT-4o 创建 Kubernetes 集群等实例。目前项目在 GitHub 上以 Apache-2.0 许可开发,具备可重复性、多模型支持等优势,旨在提升开发者效率,应对生成式 AI 驱动的需求。
AI News
1、Tavus数字人
效果看起来也太真实了,整合了视觉、语音和情感智能,让虚拟人拥有情感表达、情感理解能力,由三个核心模型组成:
(1)Phoenix-3:实时全脸渲染模型,能生成复杂的微表情和情绪,包括眉毛、脸庞、眼睛等,可以实时调整表情;
(2)Raven-0:能持续处理视觉上下文,读取情绪,理解情绪变化,并智能回应;
(3)Sparrow-0:用来控制对话的节奏,判断什么时候该说、什么时候该听,响应速度快;
2、Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准!
Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素,特点:
(1)原生多语言和多模态,支持数千种文字、字体以及语言;
(2)能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档;
(3)在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色;
(4)处理速度很快,单节点每分钟可处理2000页;
(5)支持使用文档作为提示,以结构化格式比如 JSON输出;
(6)可选择性自托管;
3、Windsurf Wave 4 发布:新增 Preview 功能,支持实时预览和精准编辑
Windsurf Wave 4 正式发布,该版本主要新增了 Preview 功能。生成的前端代码可以在编辑器中实时预览,并且支持指哪改哪(类似 V0),能够精准地将上下文发送给 Windsurf。
Others
1、手把手教你,AI生成超高品质网站
分享下调教AI方法:
(1)尽量找业内最好网站的截图让AI生成页面,因为截图比嘴说抽象的前端细节,效果好一万倍,因为人理解的前端、好看和AI理解的非常不一样;
(2)让AI生成HTML单文件,这样马上就可以浏览器看效果,生成HTML效果全部OK后再让AI转vue组件;你直接上组件,会导致看效果之前还要整合到项目中,效率太低;
(3) AI生成的HTML后要细节微调,比如,文案改成什么苹果高冷风,图片跟文案搭配自己网上找图(不说AI会因为版权搞占位符,布局是乱的),图标用SVG图标(这样后期你可以自己找合适的让AI精确换),动效平滑点有加速度,哪个div的样式要微调一下(这个浏览器开发工具定位);
(4)第三步搞的差不多以后,基本上可以实现80%的效果,让AI从HTML转换成vue组件,这时候针对不合适的图标直接复制你网上找好的svg图标代码给他让它替换,因为AI现在对抽象图标的理解不够,比如一个小火箭图标你靠嘴说AI会给你画成七巧板这种让你哭笑不得的效果。但是你直接给他一个svg代码让它替换后线条调细一点就很nice;
(5)到这一步基本上可以获得一个完整的vue组件,直接copy至你的项目,就可以持续集成了,不要让AI集成整个网站,网站大了上下文不够,sonnect 200k刚好适合生成一个完美的vue页面;
(6)基本上做到这里,你抄袭的网站可以还原到80%,但是不要再花心思指挥AI到100%的效果,因为做不到,简单来说再往下就是画蛇添足浪费时间,不要问我为什么知道。这时候把demo交给专业前端工程师微调即可;
上面就是完整的AI建站攻略,时间分布:基本上我找各种网站好看截图花了3天时间,完整15个vue页面靠说中文花了5天,前端专业工程师微调100%细节花了5天,云端资源静态化cdn部署1天。
http://lazycat.cloud PC版本这样质量的网站,全程14人日,恐怖吧?
个人觉得,最先失业的就是低级前端工程师,有审美的产品经理和高级前端工程师不会失业。