【openCV图像处理】提取pdf文档中的文字,用以黑白打印

问题:ppt课件转换为pdf之后字体颜色以及背景无法改变,彩底白字,在打印时极不方便,一张张地修改又耗费时间。由于本课件背景单一,稍有图案,且字体皆为白色,方便处理,故将pdf每页转为图像之后,进行处理,然后再合并为pdf文件。

流程:

  1. 将pdf输出为jpg图像
  2. 遍历图像文件夹,获取有序的文件名称
  3. 对图像逐像素处理,灰度图,以灰度值进行二值化处理
  4. 保存图像到文件夹,序号命名
  5. 使用Adobe Acrobat 合并多文件为一个pdf

效果预览:

代码:

 遍历文件夹以及图像逐像素处理代码如下;

#include <iostream>
#include <opencv.hpp>
#include <filesystem>
#include<stdio.h>
#include<io.h>

using namespace std;
using namespace cv;

void Handle_Pixel(Mat& image)
{
	// 处理成灰度图像
	//cvtColor(image, image, COLOR_BGR2GRAY);

	//灰度图
	for (int i = 0; i < image.rows; i++)
	{
		for (int j = 0; j < image.cols; j++)
		{
			int d = image.at<char>(i, j);
			if (d < 5)
			{
				image.at<char>(i, j) = 0;
			}
			else
				image.at<char>(i, j) = 255;
		}
	}
}

int main()
{
	string inFilePath = "E:\\image\\*.jpg";
	string folder = "E:\\image\\";
	string fileName;
	Mat image;
	int serialNo = 1;
	string outFilePath = "E:\\dst_image\\";

	struct _finddata_t fileinfo;
	long long handle = _findfirst(inFilePath.c_str(), &fileinfo);
	do
	{
		cout << fileinfo.name << endl;
		fileName = folder + fileinfo.name;
		image = imread(fileName, 0);
		Handle_Pixel(image);
		imwrite(outFilePath+to_string(serialNo++)+".jpg", image);

	} while (!_findnext(handle,&fileinfo));

	_findclose(handle);

	return 0;
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值