1.pdf转图片
yum -y install ImageMagick
yum install ImageMagick-devel
pecl install imagick
安装imageMagick和imagick php扩展
写道
function pdf2png($PDF,$Path){
if(!extension_loaded('imagick')){
return false;
}
if(!file_exists($PDF)){
return false;
}
$IM =new imagick();
$IM->setResolution(100,100);
$IM->setCompressionQuality(3);
$IM->readImage($PDF);
foreach($IM as $Key => $Var){
$Var->setImageFormat('png');
$Var->rotateImage(new ImagickPixel(), 90);
$Filename = $Path.'/'.md5($Key.time()).'.png';
if($Var->writeImage($Filename)==true){
$Return[]= $Filename;
}
}
return $Return;
?>
if(!extension_loaded('imagick')){
return false;
}
if(!file_exists($PDF)){
return false;
}
$IM =new imagick();
$IM->setResolution(100,100);
$IM->setCompressionQuality(3);
$IM->readImage($PDF);
foreach($IM as $Key => $Var){
$Var->setImageFormat('png');
$Var->rotateImage(new ImagickPixel(), 90);
$Filename = $Path.'/'.md5($Key.time()).'.png';
if($Var->writeImage($Filename)==true){
$Return[]= $Filename;
}
}
return $Return;
?>
2 OCR识别文字
调用http://ocr.wdku.net/模拟提交识别请求
3 读取pdf中的文件内容
调用pdfparser
<?php
// 创建源码中的Parser类对象
$path = "20170717_171204.pdf";
$parser = new Smalot\PdfParser\Parser();
// 调用解析方法,参数为pdf文件路径,返回结果为Document类对象
$document = $parser->parseFile($path);
// 获取所有的页
$pages = $document->getPages();
// 逐页提取文本
foreach($pages as $page){
echo($page->getText());
}
?>