合合信息文档解析Coze插件发布，PDF转Markdown功能便捷集成

最新推荐文章于 2025-04-17 14:41:17 发布

合合信息解决方案

最新推荐文章于 2025-04-17 14:41:17 发布

阅读量759

点赞数 4

文章标签：合合信息ocr 文档解析

本文链接：https://blog.csdn.net/b_qixin/article/details/141459512

版权

近日，TextIn开发的PDF转Markdown插件正式上架Coze平台。

在扣子搜索“pdf转markdown”，或在Coze平台搜索“pdf2markdown”，即可找到插件，在你的专属智能体中便捷使用文档解析功能。

如果想测试解析插件在你需要的场景下表现如何，可以直接对话bot，试用pdf转markdown效果。

同时，TextIn团队提供了简单的Workflow示例供参考，有搭建工作流需要的用户可直接复制使用。

现在，“pdf转markdown”插件可以为Coze用户提供与TextIn网页端、API调用同等的优质服务：

大文件：目前同步接口文件最大可达500MB，未来将进一步提高
长文件：目前支持最长1000页，开发计划已将目标定在5000页
高速度：快速解析百页级pdf，无需长时间等待

同时，每位用户可免费享有1000页额度，实现小体量解析“额度自由”。

“pdf转markdown”插件的上架为有PDF文件处理需求的用户提供了一个可靠的优选工具。

由于PDF文件的视觉编码特性，其中的内容难以被提取或二次编辑。长期以来，PDF经常成为知识“沉睡”的终点。大模型时代，打造“聪明”的AI需要的“基建”除了算力之外，还有高质量的语料。中文语料缺口已成为业内的关注重点之一，现阶段，大量的高质量中文语料数据存在于书籍、论文、研报、企业文档等文档之中，复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。

文档解析技术让机器能够识别文档中的多种元素，更好地处理文本、表格、图像等多类型数据，还原文档阅读顺序，服务各类AI应用、智能体的开发。通过物理版面分析与逻辑版面分析技术，TextIn文档解析能够准确识别文档中的各个元素，并理解其之间的逻辑关系。

物理版面分析侧重于视觉特征、文档布局，主要任务是把相关性高的文字聚合到一个区域，比如一个段落，一个表格等等，并选用目标检测任务进行建模，使用基于回归的单阶段检测模型进行拟合，从而获得文档中各种各样的布局方式；逻辑版面分析侧重于对语义特征的分析，主要任务是把不同的文字块根据语义建模，例如通过语义的层次关系，形成一个目录树结构。

TextIn在文档智能领域拥有深厚的技术积累，在文字、表格识别OCR技术的基础上，开发版面分析能力。随着深度学习技术的发展，版面分析的能力得到了显著提升，使得处理复杂文档布局成为可能。TextIn版面分析技术利用深度神经网络，对文档页面的布局和结构进行自动分析和理解。