PDF 拆分为IMages

最新推荐文章于 2024-08-22 19:44:50 发布

wiArcher

最新推荐文章于 2024-08-22 19:44:50 发布

阅读量454

点赞数

分类专栏：常用组件文章标签： pdf 汉王 image 拆分

本文链接：https://blog.csdn.net/qq_25042791/article/details/43529887

版权

在进行OCR任务时遇到多页PDF识别问题，汉王SDK仅能识别第一页。为避免额外花费1.5万购买组件，决定自行解决。通过研究，使用iTextSharp库将PDF拆分成单独的图片，再进行OCR处理，以此节省成本。

摘要由CSDN通过智能技术生成

近期做OCR，要求支持 PDF 格式，采用汉王的sdk, ，经测试它居然不支持多页PDF ，只能识别出第一页，坑呀。

与他们协商，说他们有个组件，可以实现，要价 1.5万。

思路是：先调用他们的有个方法，把PDF拆分了，再遍历去掉OCR组件，最后再组装成一个文书。

就这值1.5万。。。。这钱太好挣了吧。。

爷怒了，这个咱可以做， 1.5万，咱给公司省。 SO 。苦逼的任务开始了。。。

各大网站与论坛，搜索。找到一些资料，下面是代码。

要添加引用文件 itextsharp.dll （各大网站有Show，自行下载）

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Drawing.Imaging;
using iTextSharp.text.pdf;
using System.IO;

namespace ExtractImagesFromPDF
{
 public   class PDFToImages
    {
        public static void ExtractImagesFromPDF(string sourcePdf, string outputPath)
        {
            // NOTE:  This will only get the first image it finds per page.
            PdfReader pdf = new PdfReade

最低0.47元/天解锁文章

wiArcher

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PDF 拆分为IMages

近期做OCR，要求支持 PDF 格式，采用汉王的sdk, ，经测试它居然不支持多页PDF ，只能识别出第一页，坑呀。与他们协商，说他们有个组件，可以实现，要价 1.5万。思路是：先调用他们的有个方法，把PDF拆分了，再遍历去掉OCR组件，最后再组装成一个文书。就这值1.5万。。。。这钱太好挣了吧。。爷怒了，这个咱可以做， 1.5万，咱给公司省。 SO 。...
复制链接

扫一扫

专栏目录