AI办公自动化：kimi批量搜索提取PDF文档中特定文本内容

最新推荐文章于 2025-03-27 09:18:45 发布

AIGCTribe

最新推荐文章于 2025-03-27 09:18:45 发布

阅读量1.9k

点赞数 14

文章标签：人工智能 pdf

本文链接：https://blog.csdn.net/AIGCTribe/article/details/139612674

版权

工作任务：PDF文档中有资料来源这一行，比如：

资料来源：moomoo tech、The Information、Bloomberg、Reuters，浙商证券研究所

数据来源：CSDN、浙商证券研究所

数据来源：CSDN、arXiv、浙商证券研究所

数据来源：秘塔AI搜索官网，Similarweb，Epic Connector，东吴证券研究所

来源：Github，《面向深度学习的多模态融合技术研究综述》，《Make-a-video: text-to-video generation without text-video data》，浙商证券研究所

来源：Github，OSCHINA，浙商证券研究所

希望提取文件中几百个PDF文档中的资料来源

在kimi中输入提示词：

你是一个Python编程专家，完成一个脚本编写任务，具体步骤如下：

打开文件夹：F:\研报下载\AIGC研报；

用pdfplumber 库读取文件夹中所有的PDF文件；

遍历PDF文档中的每行文本，查找以“资料来源：”开头、以“数据来源：”开头和以“来源：”开头的这一行文本内容；

保存这些文本内容到文件夹“F:\AI自媒体内容\AI行业数据分析”下的Excel文件中&#x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AIGCTribe

关注关注

14
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Kimichat使用案例013：用kimichat批量识别出图片版PDF文件中的文字内容

LuckyHanMo的博客

06-11

953

图片版的PDF文件，怎么才能借助AI工具来提取其中全部的文字内容呢？第一步：将PDF文件转换成图片格式Kimichat使用案例011：用kimichat将PDF自动批量分割成多个图片（零代码编程）第二步：识别图片中的文字将第一步pdf转换成的图片，上传到kimichat。 Kimichat使用案例013：用kimichat批量识别出图片版PDF文件中的文字内容

AI办公自动化003：用kimi把PDF文档按照章节自动拆分成多个docx文档

LuckyHanMo的博客

07-14

465

一个PDF文档很长，希望按照章节分拆成小文档。 AI办公自动化003：用kimi把PDF文档按照章节自动拆分成多个docx文档

参与评论您还未登录，请先登录后发表或查看评论

基于AI大模型的复杂扫描件PDF信息提取与规整

JIZQAQ学习&踩坑笔记本

11-01

3799

场景大致是会上传一个几十页的扫描件PDF，让AI在当中找出我需要的字段，本文会隐去具体行业信息和具体的AI提示词内容，只分享技术相关内容，请见谅。

Elasticsearch：使用 Azure AI 文档智能解析 PDF 文本和表格数据

最新发布

Elastic 中国社区官方博客

03-27

903

了解如何使用 Azure AI 文档智能解析包含文本和表格数据的 PDF 文档。Azure AI 文档智能是一个强大的工具，用于从 PDF 中提取结构化数据。它可以有效地提取文本和表格数据。提取的数据可以索引到 Elastic Cloud Serverless，以支持 RAG（- 检索增强生成）。在这篇博客中，我们将通过摄取四份最新的 Elastic N.V. 季度报告来演示 Azure AI 文档智能的强大功能。

免费AI神器！完美提取识别扫描版PDF文件中的表格内容

AIGCTribe的博客

05-23

1566

万知作为李开复老师旗下零一万物AI大模型的产品，不仅可以免费，而且识别准确率最高，几乎没有任何错误，可以完美还原原文档内容。现在已经有一些工具软，可以识别扫描版PDF文件中的表格，但是效果差强人意，会有很多错误，还需要进行很多修改。很完美的提取出来，点击右上角的复制代码，然后粘贴到Arya - 在线 Markdown 编辑器。输入提示词：提取PDF中的表格内容，然后全部合并在一起，以markdown格式输出表格。输入提示词：提取文档中第1页的表格内容，以markdown格式输出表格。

用kimichat批量识别出图片版PDF文件中的文字内容

AIGCTribe的博客

04-02

1654

然后回车，就全部识别出来到了。这些文字内容似乎是从一本关于职业和角色扮演的儿童书中提取的。具体方法参见文章：《零代码编程：用kimichat将图片版PDF自动批量分割成多个图片》注意：kimichat目前上传图片一次最多50张图片，单个大小不超过100M。图片版的PDF文件，怎么才能借助AI工具来提取其中全部的文字内容呢？点击这些解析失败图片的右上角红色X，把这些无法解析的图片删除掉。将第一步pdf转换成的图片，上传到kimichat。部分图片会提示：未提取到文字或者解析失败。第二步：识别图片中的文字。

AI 模型来实现 PDF 文件的 OCR 功能

Leon_Jinhai_Sun的博客

03-14

771

Zerox 是一款开源的 OCR 工具，基于 GPT-4o-mini 模型，能够实现零样本识别，支持 PDF、DOCX 和图片等多种格式文件。OlmOCR 是由 Allen 人工智能研究所开发的开源工具包，专注于将 PDF 文档转换为结构化的纯文本。它使用视觉语言模型（VLM），经过大量多样化 PDF 内容的训练，能够高效处理扫描件和复杂表格。PaddleOCR 是基于 PaddlePaddle 框架开发的开源多语言 OCR 工具包，支持文本图像分析、通用 OCR、版面解析、表格识别等功能。

AI办公自动化002：用kimi批量重命名Word文档

LuckyHanMo的博客

07-13

494

文件夹里面有很多个word文档，标题里面都含有零代码编程，现在想将其替换为AI办公自动化。 AI办公自动化002：用kimi批量重命名Word文档

AI办公自动化001：用kimi批量新建Word文档

LuckyHanMo的博客

07-13

1075

用kimi批量新建Word文档。 AI办公自动化001：用kimi批量新建Word文档

AI办公自动化：用kimi批量将word文档部分文件名保存到Excel中

AIGCTribe的博客

05-27

1023

excel_file_path = os.path.join(folder_path, "新建 XLSX 工作表.xlsx")去掉文件名中的“AI视频教程下载：”，剩下的文件名保存到Excel文件“新建 XLSX 工作表.xlsx”的第1列；processed_filenames.append(filename[len("AI视频教程下载："):])print(f"处理后的文件名数量：{len(processed_filenames)}")打开文件夹：F:\AI自媒体内容\AI视频教程下载\新建文件夹。

AI办公自动化005：用kimi批量把word转换成txt文本

LuckyHanMo的博客

07-15

520

将指定文件夹下的word文档，转换成txt文本。 AI办公自动化005：用kimi批量把word转换成txt文本

如何用Kimi整理文档中的内容

冀辉的博客

04-03

1383

初次尝试直接使用PPT格式，效果读取的不好。后面改为另存为PDF格式，整体效果有明显改善。程序成功从PDF中提取了多个图片中的内容，并将PPT中的信息，总结出一段文档后输出。测试结果见下面的程序输出。有一个PPT，是之前从百度文库中做的截图，尝试使用Kimi将这样的文档进行一下整理。

Kimi 和 DeepSeek 处理 PDF 文档

Leon_Jinhai_Sun的博客

03-14

333

DeepSeek 的处理方式则有所不同。根据搜索结果，DeepSeek 本身并不直接支持 OCR 功能，但可以通过结合外部 OCR 工具（如 PaddleOCR 或 RapidOCR）实现类似功能。Kimi 在处理 PDF 文档（如合同）时，通常会将整个 PDF 转换为文本内容，然后利用其内置的自然语言处理（NLP）能力直接从文本中提取关键信息（如甲方、乙方等）。Kimi 和 DeepSeek 在处理 PDF 文档提取信息时的流程和实现方式确实存在差异。

增强版 Kimi：AI 驱动的智能创作平台，实现一站式内容生成（图片、PPT、PDF）！

yxd179的博客

05-24

2889

打造智能多面手 Kimi，一键生成图片、PPT、PDF!

打造一个增强版Kimi：可以生成图片、PPT、PDF文档、数据分析等

AIGCTribe的博客

05-19

8153

可以根据自己的需求，选择新闻阅读、照片与摄影、实用工县、便利生活、网页搜索、科学与教育、社交、游戏与娱乐、金融与商业等各方面几百个插件。如果不满意，还可以自己定制插件。参见之前的文章：《Coze扣子开发指南：AI零代码编程创建插件》和《Coze扣子开发指南：用免费API自己创建插件》。Kimi虽然在国内AI大模型中表现不错，但是和ChatGPT还是差不少功能。添加了这些插件后，增强版Kimi就可以搜索图片，生成PDF，生成ppt等了。，然后点击左侧的创建bot。

AI办公自动化006：用Kimi按照名称顺序批量提取文件夹里文件标题

LuckyHanMo的博客

07-16

539

文件夹里面有几百个mp3文件，现在要讲所有文件标题名提取到一个txt文档中。 AI办公自动化006：用Kimi按照名称顺序批量提取文件夹里文件标题

PDFlux:AI提取PDF数据神器

zxb_1222的博客

09-17

410

AIGC是人工智能领域中的一种创新技术，其基本原理是利用人工智能技术中的“自然语言处理”、“机器学习”、“深度学习”等技术，对大量的语言数据进行深入分析、学习和模拟，从而实现对自然语言的理解和生成。AIGC是人工智能领域中的一种创新技术，其基本原理是利用人工智能技术中的“自然语言处理”、“机器学习”、“深度学习”等技术，对大量的语言数据进行深入分析、学习和模拟，从而实现对自然语言的理解和生成。AIGC的出现具有重要的意义，它不仅可以提高人们的工作效率，还可以促进跨语言、跨文化交流。

开源AI引擎|信息抽取与文本分类项目案例：提升12345政务投诉处理效率

03-27

1372

采集员案件上报流程是城市管理和问题解决的关键环节，涉及对案件类别的选择、案件来源的记录、详细案件描述的填写以及现场图片的上传。这一流程要求采集员准确、详细地提供案件信息，以便系统能够自动解析关键数据并填写相关内容，从而提高处理效率和准确性。系统对采集员上报的信息进行自动解析后，将推荐合适的处理流程和责任部门，确保案件得到及时有效的处理。同时，采集员将收到案件处理的反馈，了解进展情况，这一闭环流程有助于提升城市管理的质量和效率，同时保障问题能够得到妥善解决。

kimi开放API使用了，来看如何使用