使用基于 Python 的 Lambda 将 Word 转换为 PDF

本文介绍了如何使用 Python 在 AWS Lambda 上实现 Word 到 PDF 的转换。作者探讨了避免编写代码的选项,如使用 Google Docs 和第三方服务,但最终选择了基于 LibraOffice 的方法。通过分析 JavaScript 库,确定了使用 AWS Lambda 层的 LibraOffice 实现解压缩和解包的流程,解决了 Lambda 的内存和大小限制问题。
摘要由CSDN通过智能技术生成

使命

TL;DR 或:中止任务

我最近接到了一项新任务,该任务大量使用 AWS 来实现无服务器架构等。我的第一个任务的目标是在文档上传到 S3 存储桶时触发 Lambda ,并将不同格式的文件转换为.pdfs. 预计支持的格式包括.doc.docx. 虽然我知道这些文件包含在文档编辑期间使用的元数据,但我认为我可以只抓取文档,直到找到 ascii 字符。直到我强迫 VS Code 打开原始文件: 恐怖。显然,我正忙得不可开交。

原始 Word Doc 的噩梦

勘探

所以我认为我们都同意编写代码来解决问题应该是最后的手段,所以首先我想知道我是否可以利用(希望是免费的)服务来完成繁重的工作。

谷歌文档怎么样?

我考虑使用 Google Docs 作为转换的主力,但一位在该项目中工作时间较长的同事告诉我,Google Docs 总是删除某些格式元素,通常是像 open paren 这样的符号。来自业务的要求是文档格式被完全保留,所以我不能冒一个不完整的解决方案的风险。

好的,那还有什么?

事实证明,将 word 文档转换为 pdf 的流行策略是使用LibreOffice 的 CLI 功能。事实上,已经有一个基于 JS 的库可以做到这一点

哦!那么为什么不使用 Javascript 而不是 Python 呢?

因为我喜欢使用 Python 并且想要挑战?忘记我之前所说的避免编写代码。

那好吧。

工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值