html 提取pdf,使用PDF.js从PDF中提取文本(2019)

本文介绍如何利用Mozilla维护的PDF.js库从PDF文档中提取文本。通过加载PDF文档,逐页获取文本内容,并将所有页面的文本整合成一个字符串,最终在控制台显示提取的文本。
摘要由CSDN通过智能技术生成

正如标题所说,我正在尝试使用由Mozilla维护的PDF.js从PDF中提取文本。我知道前面关于stackoverflow的问题,但我不知道从哪里开始。

我试着跟着这个

article

这件事我需要帮助。

所以我把下面的所有代码都放在index.html文件中,对吗?

PDF.js

var urlPDF = '/path/to/example.pdf';

PDFJS.workerSrc = '/path/to/pdf.worker.js';

PDFJS.getDocument(urlPDF).then(function (pdf) {

var pdfDocument = pdf;

var pagesPromises = [];

for (var i = 0; i < pdf.pdfInfo.numPages; i++) {

// Required to prevent that i is always the total of pages

(function (pageNumber) {

pagesPromises.push(getPageText(pageNumber, pdfDocument));

})(i + 1);

}

Promise.all(pagesPromises).then(function (pagesText) {

// Display text of all the pages in the console

console.log(pagesText);

});

}, function (reason) {

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值