- 博客(139)
- 资源 (2)
- 收藏
- 关注
原创 LeRobot: 让机械臂接入大模型
Hugging Face推出的开源项目LeRobot引发了业界广泛关注。这一项目通过整合最先进的机器学习算法和便捷的开发工具链,为开发者提供了一个高效、易用的机器人AI开发平台,堪称机器人领域的“Transformer时刻”。
2025-06-11 10:31:27
307
原创 LemonAI: 全球首个全栈开源通用 AI Agent
Lemon 是一个开源的通用 AI 代理,能够自动化从需求规划到结果交付的整个过程。它可以独立思考和系统规划,在虚拟环境中灵活调用各种工具,例如编写和执行代码、智能浏览 Web、作 Web 应用程序和执行命令。Lemon 擅长系统地分解复杂的任务并有序地执行它们,自动分析任务,确定步骤的优先级,动态调整计划,并实时跟踪进度。它的目标是帮助用户高效地完成各种任务。
2025-06-09 16:02:20
758
原创 mcp-agent: 简单的MCP代理框架
mcp-agent 是一个基于 Model Context Protocol (MCP) 的简单、可组合的框架,用于构建智能代理。它旨在通过 MCP 服务器来管理代理的生命周期,并提供构建生产就绪的 AI 代理的简单模式。
2025-06-07 15:42:26
309
原创 agent-zero: 打造你的AI专属AI助理
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
2025-06-01 11:02:47
1047
原创 AgenticSeek: 100% 本地替代 Manus AI 的方案
一个 100% 本地替代 Manus AI 的方案,这款支持语音的 AI 助理能够自主浏览网页、编写代码和规划任务,同时将所有数据保留在您的设备上。专为本地推理模型量身打造,完全在您自己的硬件上运行,确保完全的隐私保护和零云端依赖。
2025-05-30 10:42:53
762
原创 AI-Media2Doc: 视频一键转图文的 AI 工具
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
2025-05-28 10:50:31
478
原创 magentic-ui: 在保持控制的同时自动执行 Web 任务
Magentic-UI 是一个以人为本的界面的研究原型,由多代理系统提供支持,可以在 Web 上浏览和执行作,生成和执行代码,以及生成和分析文件。 Magentic-UI 对于需要在 Web 上执行作(例如,填写表单、自定义食品订单)、在未被搜索引擎索引的网站中进行深度导航(例如,过滤航班、从个人站点查找链接)或需要 Web 导航和代码执行的任务(例如,从在线数据生成图表)的 Web 任务特别有用。
2025-05-25 06:39:51
868
原创 dify: 易用的 LLMOps 平台
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
2025-05-21 10:16:28
1225
原创 Craw4AI:LLM友好的网页爬虫
Crawl4AI旨在让网页爬取和数据提取变得简单而高效。无论构建复杂的 AI 应用程序还是增强大语言模型,Crawl4AI 都能提供简化工作流程所需的工具。凭借完全的异步支持,Crawl4AI 可确保爬取任务快速、可靠且可扩展。
2025-05-19 10:44:14
1406
原创 Opik: 评估、测试和监控 LLM 应用
Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 建造。从 RAG 聊天机器人到代码助手,再到复杂的代理管道等等,通过跟踪、评估和仪表板构建运行得更好、更快、更便宜的 LLM 系统。
2025-05-18 10:34:57
989
原创 Suna: 开源多面手 AI 代理
Suna 是一个完全开源的 AI 助手,可帮助您轻松完成实际任务。通过自然对话,Suna 成为您进行研究、数据分析和日常挑战的数字伴侣 — 将强大的功能与直观的界面相结合,了解您的需求并提供结果。
2025-05-16 10:36:05
1139
原创 Void: Cursor 的开源平替
在你的代码库中使用 AI 代理,检查点并可视化更改,并将任何模型或主机本地化。Void 直接向提供者发送消息,而不会保留你的数据。拥有与 Cursor 几乎一样强大的编程功能,最大的不同 Void 是可直接连接任何 AI 模型或使用本地部署模型,无需再经过第三方服务器。
2025-05-14 10:34:30
1146
原创 UI-TARS: 基于视觉语言模型的多模式代理
UI-TARS是一款基于视觉语言模型的GUI代理应用,支持通过自然语言指令控制电脑操作,适用于Windows和MacOS系统。该应用结合了视觉识别和自然语言处理技术,能够识别屏幕内容并执行精确的鼠标和键盘操作。主要功能包括自然语言控制、视觉识别支持、精准控制、跨平台支持和实时反馈。UI-TARS在多个基准测试中表现出色,尤其在OSWorld和ScreenSpotPro等任务中表现优异。安装和使用步骤包括部署和推理、预测后处理,以及选择适合的提示模板。UI-TARS通过初始化、观察、思考和操作等步骤,能够高效
2025-05-12 10:40:05
870
原创 fastmcp: 更好用的 MCP Python 框架
用于构建 MCP(Model Context Protocol)服务器和客户端的 Python 框架,帮助开发者以更快速、简洁的方式向 LLM 暴露数据资源和工具。相比官方 SDK,它的 API 设计更加简洁、开发效率更高,且具备更强的可扩展性,支持多种客户端/服务端传输模式(Stdio、SSE、内存)、资源模板机制,并可通过 OpenAPI/FastAPI 自动生成 MCP 服务,极大地降低了 MCP 服务器与客户端的开发门槛。
2025-05-10 10:48:43
972
原创 Agent-S: 操作计算机的智能代理框架
让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。通过集成大模型(LLM)和视觉多模态模型,能够理解屏幕截图、界面结构等输入,并生成操作指令,实现自动点击、输入、窗口切换、搜索等操作。
2025-05-09 15:10:45
999
原创 cua: 为 AI 智能体提供高性能虚拟环境
一个专为 AI 智能体设计的高性能操作系统虚拟化与控制框架。它通过轻量级、近乎原生速度的虚拟容器,让 AI Agent 能够在完全隔离的 macOS 或 Linux 环境中自动执行“用电脑”任务,如操作应用、上网、写代码、自动化复杂办公流程等,并内置多种主流 LLM(大模型)接口。
2025-05-01 10:28:01
962
原创 WeClone: 用微信聊天记录微调大语言模型
通过个人微信聊天记录对大语言模型(LLM)进行微调,打造专属的数字分身。它提供从聊天数据到模型微调、从文本生成到语音克隆、从训练到部署的全链路解决方案。让你的数字分身不仅“会说你的话”,还能“听起来像你本人”。
2025-04-30 15:47:04
837
原创 codex: OpenAI 开源的轻量级编程助手
OpenAI 开源的命令行智能编码助手,旨在通过自然语言交互提升开发效率。它依赖 OpenAI 的 API 服务,仅需配置 OpenAI API Key 即可零门槛上手,支持代码生成、文件操作、版本控制和多模态(截图输入)等功能,适用于个人开发者、团队协作以及 CI/CD 流程。
2025-04-27 10:58:29
1184
2
原创 BitNet: 微软开源的 1-bit 大模型推理框架
微软专为 CPU 本地推理和极致压缩(低比特)大模型设计的推理框架。它支持对 1-bit/1.58-bit 量化模型进行高效、低能耗的推理,兼容 BitNet、Llama3-8B-1.58、Falcon3 等模型,适用于在本地或边缘设备上运行大模型推理任务,无需 GPU。
2025-04-25 10:14:13
1230
原创 HowToCook: 程序员在家做饭指南
做饭的时候,偶尔在网上找找菜谱和做法。但是这些菜谱往往写法千奇百怪,经常中间莫名出来一些材料。对于习惯了形式语言的程序员来说极其不友好。
2025-04-21 09:58:57
845
原创 KrillinAI: 基于 AI 的视频翻译配音工具
简约而强大的工具可以处理从翻译、配音到语音克隆、格式化的所有内容——在横向和纵向模式之间无缝转换视频,以便在所有内容平台(YouTube、TikTok、Bilibili、抖音、微信频道、RedNote、快手)上实现最佳显示。凭借其端到端工作流程,Krillin AI 只需单击几下即可将原始素材转换为精美的平台就绪内容。
2025-04-20 09:20:46
914
原创 index: 自动化浏览器智能体
在做浏览器自动化脚本时,我们常常需要编写大量代码来处理复杂的网页交互,不仅耗时耗力,还难以调试和优化,要是出错更是难以精准定位问题所在。
2025-04-18 10:34:38
466
原创 bininote: 使用AI将视频转换了Markdown笔记
BiliNote 是一个开源的 AI 视频笔记助手,支持通过哔哩哔哩、YouTube 等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。
2025-04-16 10:58:27
793
原创 AI Hedge Fund: 探索人工智能在交易中的决策
AI Hedge Fund 一个概念验证项目,目标是探索人工智能在交易决策中的应用。该项目通过模拟多种投资策略的智能代理(agents),进行股票分析和交易决策。项目仅用于教育和研究目的,不适用于实际交易或投资。
2025-04-14 10:42:24
917
原创 8n8: 集成DeekSeek打造个人助理的工作流自动化
n8n 是一个开源的工作流自动化工具,类似于 IFTTT。它的优点是开源、可以自托管、下载安装方便、易于使用,可以互联的服务包括 Github、Google、RSS、Slack、Telegram、Gitlab、Redis、RabbitMq、数据库等等上百种服务。
2025-04-13 09:31:22
1460
原创 DevDocs:抓取并整理技术文档的MCP服务
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置 MCP 服务器,支持与 Claude 等大模型集成,让用户可以用自然语言查询文档内容。
2025-04-11 10:06:27
1121
原创 Spark-TTS: 不依赖模型生成声学特征的TTS
Spark-TTS 完全基于 Qwen2.5 构建,无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征,而是直接从 LLM 预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性。
2025-04-10 11:51:20
934
原创 VoiceCanvas: 支持超过 50 种语言的文本转语音
VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。它集成多种语音服务,如 OpenAI TTS、AWS Polly 等,确保语音合成的高质量与稳定性。
2025-04-09 10:32:29
868
原创 AutoAgent: 香港大学开源的AI智能体框架
AutoAgent是由香港大学数据智能实验室(HKUDS)开发的一个开源AI智能体框架,托管于GitHub。它允许用户通过纯自然语言描述需求,快速创建和部署定制化的AI智能体,无需任何编程基础。该框架支持多种大语言模型(LLM),如Grok、Gemini等,并具备高性能的多智能体协作系统,在GAIA基准测试中表现优异,媲美OpenAI的Deep Research。
2025-04-07 10:10:54
1033
原创 agno: 轻量级的多模态智能代理库
一个高性能、开源的 Python 库,用于构建多模态智能代理。通过统一大语言模型的 API,并赋予它们记忆、知识、工具和推理等强大功能。该项目速度快、内存占用少,支持文本、图像、音频和视频等多种内容形式,以及多代理、结构化输出,兼容几乎任何模型和服务供应商。
2025-04-04 10:14:55
379
原创 OmniParser: 让大模型化身“电脑管家”
微软发布了革命性的视觉Agent框架OmniParser V2。这个能把DeepSeek-R1、GPT-4o等大模型变成"计算机使用智能体"的黑科技,让AI终于不再只是"脑补"屏幕内容——它现在能像人类一样精准识别UI元素,甚至能发现你都没注意到的隐藏按钮!
2025-04-02 11:31:37
1093
原创 ivy: 机器学习代码跨框架转换利器
可以将机器学习模型、工具和库从一个框架转换到另一个框架。开发者通过简单的函数即可完成代码的转换,支持 TensorFlow、PyTorch、JAX 等主流框架。
2025-03-31 09:12:21
699
原创 PySpur: AI 智能体可视化开发平台
PySpur是一个开源的轻量级可视化AI智能体工作流构建器,旨在简化AI系统的开发流程。通过拖拽式界面,用户可以快速构建、测试和迭代AI工作流,无需编写复杂代码。PySpur支持多模态数据处理、RAG技术、文件上传和结构化输出,适用于智能对话系统开发、自动化任务管理、多模态数据分析和文档处理等场景。
2025-03-30 10:33:56
922
原创 Ableton-MCP: 让音乐制作更智能
AbletonMCP 通过模型上下文协议 (MCP) 将 Ableton Live 连接到 Claude AI,使 Claude 能够直接与 Ableton Live 交互和控制。此集成支持提示辅助音乐制作、音轨创建和 Live 会话作。
2025-03-27 09:52:25
1025
原创 DeepSearcher: 私有数据上智能搜索和分析
DeepSearcher 结合推理 LLM(OpenAI o1、o3-mini、DeepSeek、Grok 3、Claude 3.7 Sonnet 等)和向量数据库(Milvus、Zilliz Cloud 等),基于私有数据进行搜索、评估和推理,提供高度准确的答案和全面的报告。本项目适用于企业知识管理、智能问答系统、信息检索场景。
2025-03-26 09:15:19
905
原创 ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型
通过 Excel 的形式实现并演示人工智能与深度学习的核心算法和概念,让初学者可以动手操作并理解 AI 的运行原理,包括矩阵乘法、MLP、RNN、Transformer、ResNet 等,以独特且浅显易懂的形式,降低了 AI 学习的门槛。
2025-03-24 10:31:38
616
原创 Second-Me: 训练你的 AI 自我以连接世界
不像像 OpenAI 这样的公司构建了威胁人类独立的“超级 AI”。而是渴望个性:AI 可以放大而不是抹杀您。通过Second Me来挑战这一点:一个开源原型,您可以在其中打造自己的AI 自我 — 一种新的 AI 物种,可以保护您、提供您的背景并捍卫您的利益。
2025-03-23 11:47:02
795
原创 OWL - 优化劳动力学习的通用智能体
🦉 OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。🏆 OWL 在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名 🏅️ #1! 🏆
2025-03-21 09:42:19
1161
1
原创 MarkPDFDown - 使用 AI 将 PDF 转录为 Markdown
MarkPDFDown 旨在简化将 PDF 文档转换为干净、可编辑的 Markdown 文本的过程。通过利用先进的多模态 AI 模型,它可以准确提取文本、保留格式并处理复杂的文档结构,包括表格、公式和图表。
2025-03-20 09:32:34
1093
Netpad多人协同文本编辑器
2009-02-28
pky下载管理系统
2006-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人