作者:算力魔方创始人/英特尔创新大使刘力
Cherry Studio是一款跨平台的集成了AI大模型和知识库、网络搜索、MCP服务器等相关工具桌面客户端应用程序,方便用户配置出自己的AI智能体助手。
在使用RAG技术配置私有知识库的过程中,由于RAG技术不能直接处理PDF这样的非结构化数据,所以,必须使用转换工具把PDF文档转换为RAG技术可以使用的结构化数据文档,例如:Markdown或JSON文档。
一,Markitdown-MCP简介
MarkItDown 是一个开源的,遵循MIT协议的,轻量级的 Python工具包,用于将PDF/Powerpoint/Word/Excel等非结构化文件转换为Markdown文件 -- 一种与纯文本极其接近,标记和格式极少,但又保留了文档结构的深受LLMs分析欢迎的文件。
最近MarkItDown发布了MarkItDown-MCP,一个轻量级的支持 STDIO 和 SSE 调用方式的MCP 服务器,方便AI大模型调用 MarkItDown。
二, 安装并启动Markitdown-MCP
首先,请在算力魔方4060®上创建虚拟环境mcp,然后安装markitdown-mcp:
conda create -n mcp python=3.11
conda activate mcp
pip install markitdown-mcp
然后,用命令启动markitdown-mcp:
markitdown-mcp --sse --host 127.0.0.1 --port 3001
三,在Cherry Studio中使用markitdown-mcp
在Cherry Studio的MCP服务器中,添加markitdown-mcp:
然后,在对话框中,输入提示词:
“用markitdown工具将file:///home/ppov/Documents/fapiao.pdf,转换为markdown文件”,运行结果如下所示:
四,总结
Cherry Studio的MCP服务器功能+Markitdown-MCP,可以非常方便的打造基于AI大模型的文档分析应用!
如果你有更好的文章,欢迎投稿!
稿件接收邮箱:nami.liu@pasuntech.com
更多精彩内容请关注“算力魔方®”!