如何在C++中使用Poppler库读取PDF文件(一)

如果只是读取、渲染pdf文件,除了mupdf以外,在Linux系统中还可以使用Poppler库。Poppler的历史非常古老,X窗口系统中的pdf查看工具xpdf,使用的就是poppler。

Poppler在Linux各发行版,以及BSD族系统之中,都有现成的二进制安装包。

而且,Poppler还提供了glib、Qt5、Qt6等多种上层库的支持。本文中的示例,就采用Qt6的接口。

开发环境

Poppler按照上层接口的不同,需要不同的头文件与库文件。

原生API

比如,如果使用原生的C++接口,就需要使用poppler-devel安装包,包含Poppler底层的头文件,头文件目录是/usr/include/poppler,连接/usr/lib64/libpoppler.so动态库。

为了简化这一操作,可以使用pkg-config文件。

如:

~/$ pkg-config --cflags --libs poppler  
-I/usr/include/poppler -lpoppler

GLIB API

如果在glib程序中使用Poppler,就可以使用Poppler的glib绑定。

还是使用pkg-config:

~/$ pkg-config --cflags --libs poppler-glib  
-I/usr/include/poppler/glib -I/usr/include/cairo -I/usr/include/freetype2 -I/usr/include/glib-2.0 -I/usr/li  
b64/glib-2.0/include -I/usr/include/libxml2 -I/usr/include/libpng16 -DWITH_GZFILEOP -I/usr/include/harfbuzz  
-I/usr/include/sysprof-6 -pthread -I/usr/include/pixman-1 -I/usr/include/poppler -lpoppler-glib -lgobject-  
2.0 -lglib-2.0 -lcairo

我们可以看到,头文件目录是/usr/include/poppler/glib,而连接的库也大量使用了glib的底层动态库。

如果我们真的使用Poppler的glib绑定,就会发现把PDF的页面导出成图片的时候,是使用的GdkPixbuf。

Qt API

如果使用Qt的绑定,就根据Qt的版本,还有不同的二进制库。对于Qt5、Qt6的分别是poppler-qt5-devel与poppler-qt6-devel。

我们后文全都使用poppler-qt6-devel举例。

还是使用pkg-config看一下:

~/$ pkg-config --cflags --libs poppler-qt6  
-I/usr/include/poppler/qt6 -I/usr/include/poppler -lpoppler-qt6

如果使用CMake构建,就可以使用CMake的PkgConfig来获取相应的变量,不再赘述。

打开PDF

使用poppler-qt6的时候,PDF相关的类位于Poppler名字空间,PDF文档的类是Document,即我们需要把PDF文档解析成Poppler::Document。

这个解析过程是load()静态方法。

需要注意的是,Poppler的Qt绑定,大量使用了智能指针来方便内存的管理。

比如上文提到的Poppler::Document::load()方法,返回的就是一个unique_ptrPoppler::Document。

所以,我们需要使用unique_ptrPoppler::Document来保存加载的PDF文件,在智能指针的作用域超出以后,Poppler::Document被自动释放。

另外,load函数的第一个参数,是一个QString。如果我们是C++的std::string,需要使用QString::fromLocal8Bit来转化成QString。

比如我们定义一个PDF类:

using namespace Poppler;

class PDF {
public:
    // 加载
    bool load(const std::string &filename);
    // 总页数
    int pageCount();
    // 页面大小
    QSizeF pageSizeF(int pagenum);

    // 搜索
    QList<QRectF> pageSearch (int pagenum, const string &str);

    // 渲染
    QImage pageRender (int pagenum, int ix, int iy, double zoom, int degree);

private:
    // 智能指针
    unique_ptr<Document> m_doc;
};

加载方法:

bool PDF::load(const std::string &filename)
{
    m_doc = Document::load (QString::fromLocal8Bit (filename));  
    if (m_doc == nullptr)  
    {      
         // 如果加载失败,尝试使用密码解锁
        auto text = QInputDialog::getText (nullptr, "password", "input password");  
        auto pass = QByteArray::fromStdString (text.toStdString ());  
        m_doc = Document::load (QString::fromStdString (filename), pass, pass);
    }

    if (m_doc)
        return true;
    else
        return false;

上面的过程,返回的doc就是一个unique_ptrPoppler::Document。

取得页面信息

通过unique_ptrPoppler::Document的numPages()方法,可以取得总页数。

int  
PDF::pageCount ()  
{  
  return m_doc->numPages ();  
}  

另外通过page(int pagenum)方法,可以取得一个unique_ptrPoppler::Page,这个Page支持的方法比较多,可以做各种操作。

比如,可以通过Poppler::Page的pageSizeF()方法,取得页面的大小。

QSizeF  
PDF::pageSize (int pagenum)  
{  
  auto page = m_doc->page (pn);  
  auto size = page->pageSizeF ();  
  return size;
}  

再比如,可以通过Poppler::Page的search()方法,搜索页面的文本:

QList<QRectF> 
PDF::pageSearch (int pn, const string &str)  
{  
  auto page = mDoc->page (pn);  
  auto results = page->search (QString::fromLocal8Bit(str));  
  return results;
}

返回的是一个模板类QList<QRectF>,每一个QRectF都是一个矩形。

渲染PDF

还可以通过Poppler::Page的renderToImage()方法,把一个页面渲染成一个图片。

但是renderToImage()方法,比前面介绍的稍微复杂一点儿。

它的原型是:

 QImage renderToImage(double xres = 72.0, double yres = 72.0, int x = -1, int y = -1, int w = -1, int h  
= -1, Rotation rotate = Rotate0) const;
  • 其中,xres、yres分别是横竖两个方向的字符大小。默认都是72.0。如果我们要缩放页面,就需要根据缩放比例调整这个值。
  • 而x、y是页面的左上角坐标,w是页面宽度,h是页面高度。如果我们要渲染页面的一部分,就可以灵活调整这4个数值。
  • 而Rotation是控制渲染的方向,默认是原始方向,即Rotate0,还可以是Rotate90、Rotate180、Rotate270,可以通过字面意思猜出来,这是页面旋转的角度。

所以,以下代码可以根据输出页面大小、缩放以及方向来渲染一个PDF页面为一个QImage。

QImage
ApvlvPDF::pageRender (int pagenum, int ix, int iy, double zoom, int degree)  
{  
  auto xres = 72.0, yres = 72.0;  
  xres *= zoom;  yres *= zoom;
  auto width = zoom * ix, height = zoom * iy;  
  
  auto prot = Poppler::Page::Rotate0;  
  if (degree == 90)  
    prot = Poppler::Page::Rotate90;  
  if (degree == 180)  
    prot = Poppler::Page::Rotate180;  
  if (degree == 270)  
    prot = Poppler::Page::Rotate270;  
  
  auto page = mDoc->page (pagenum);  
  auto image = page->renderToImage (xres, yres, 0, 0, width, height, prot);  
  
  return image;  
}  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值