PDF Translator 开发实践与PDF分析、处理

最新推荐文章于 2024-05-18 09:38:34 发布

EricPan2023

最新推荐文章于 2024-05-18 09:38:34 发布

阅读量244

点赞数

分类专栏： AI Python AIGC 文章标签： pdf python AI编程 AIGC 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/simson2010/article/details/132262953

版权

PDF分析与处理笔记

背景

最近，我参加了极客时间的AI训练营 – 《AI 大模型应用开发实战营》。这个训练营涉及了多个前沿主题，特别是大语言模型和PDF处理的实际应用。课题的核心目标是利用大语言模型制作PDF翻译工具。

使用Python、pdfplumber库和ChatGPT大模型，我们成功地构建了一个能够提取PDF内容、进行翻译，并生成新PDF的系统。以下是一些关键环节的详细解释。

PDF 文件处理

1. 提取PDF内容

提取PDF内容是整个流程的第一步，涉及许多细节。

文本提取：
- 字体分析：可以获取文本的字体名和大小，用于识别标题、副标题等。
- 位置分析：分析文本在页面上的坐标，有助于理解文本的结构和布局。
图像提取：
- 格式识别：可以识别图像的格式，如JPEG、PNG等。
- 位置分析：通过坐标分析图像的位置，了解其与文本的关系。
表格提取：
- 结构化数据：将表格转换为Pandas DataFrame，方便进一步分析和处理。
- 格式保持：保持表格的格式和样式，确保准确转换。

2. 转换PDF中的图像

图像转换是另一个关键环节。

访问图像：可以直接访问PIL图像对象，进行详细分析和处理。
图像操作：
- 裁剪：可以根据需求裁剪图像。
- 缩放和旋转：根据目标尺寸缩放图像，或旋转到指定角度。

3. 向PDF添加图像

向PDF添加图像涉及多个步骤。

提取现有内容：从现有PDF提取文本和图像。
创建新PDF：结合提取的内容和新图像创建新PDF。
灵活布局

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
PDF Translator 开发实践与PDF分析、处理

利用ChatGPT，提供PDF文件翻译功能。以为分析PDF文件结构。
复制链接

扫一扫

专栏目录

EricPan2023 CSDN认证博客专家 CSDN认证企业博客

码龄18年

15: 原创

55万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

282: 积分

25: 粉丝

31: 获赞

4: 评论

36: 收藏

私信

关注

热门文章

分类专栏

AI 4篇
Python 4篇
AIGC 5篇
核污染 1篇
C# 2篇
杂项 2篇
javascript 2篇
web 2篇
SQL 2篇
SQLServer2005 2篇
Mac 2篇
MBP 1篇
手写 3篇
上传 1篇
webclient 1篇

最新评论

练习：QA对和嵌入（Embedding）
EricPan2023: 从源码看到的，是要让LangChain这个 SPLITER自行控制分割后文本的大小，如果调要具体值，分割出的长度比CHUNK_SIZE大，就会再分多一次。使得处理原来的QA对分成更多的部分。第二个问题，没遇到过，QA对在示例中是用ChatGPT生成，匹配度挺高的。实际生活或工作的文档还没试过。
练习：QA对和嵌入（Embedding）
EricPan2023: 从源码看到的，是要让LangChain这个 SPLITER自行控制分割后文本的大小，如果调要具体值，分割出的长度比CHUNK_SIZE大，就会再分多一次。使得处理原来的QA对分成更多的部分。第二个问题，没遇到过，QA对在示例中是用ChatGPT生成，匹配度挺高的。实际生活或工作的文档还没试过。
练习：QA对和嵌入（Embedding）
浪_沏沙: chunk_size设置为0表示什么意思，我理解这里应该是每个document里文本的长度限制？第二，博主有遇见查询相似度获得的分数为负100多的情况么
PDF Translator 开发实践与PDF分析、处理
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题中的“PDF Translator 开发实践与PDF分析、处理”听起来非常有趣。您的博客内容一定是对PDF翻译和处理领域的深入探索。我很期待阅读您的博客，因为这个话题对我来说还比较陌生，我相信您一定能给我带来新的见解和知识。另外，我想给出一个创作建议，如果您愿意的话。或许在下一篇博客中，您可以分享一些实际案例或者遇到的挑战，以及如何克服这些挑战的方法。这样的经验分享对于读者来说一定非常有帮助。再次感谢您的分享，期待您的下一篇博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。