如何在linux下从txt文本中提取特定字符旁的数据,小技巧：如何在Linux上从图像和PDF中提取文本...

最新推荐文章于 2024-05-13 10:03:01 发布

陈华葵

最新推荐文章于 2024-05-13 10:03:01 发布

阅读量423

点赞数

文章标签：如何在linux下从txt文本中提取特定字符旁的数据

原标题：小技巧：如何在Linux上从图像和PDF中提取文本

简介：gImageReader是一个GUI工具，可利用tesseract OCR引擎从Linux中的图像和PDF文件中提取文本。

gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的，然后于2006年开源。

基本上，OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下，它可以检测多种语言，并且还支持通过Unicode字符进行扫描。

但是，Tesseract本身就是没有任何GUI的命令行工具。因此，在这里，gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容，同时提及我在测试期间的使用经验。

gImageReader：Tesseract OCR的跨平台前端

为了简化工作，gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它，它对于特定的用户组应该很有用。

gImageReader功能介绍:

从磁盘，扫描设备，剪贴板和屏幕截图添加PDF文档和图像

旋转图像的能力

通用图像控件可调节亮度，对比度和分辨率

直接通过应用程序扫描图像

能够一次处理多个图像或文件

可以拼写检查提取的文本

从hOCR文档转换/导出为PDF文档

将提取的文本导出为.txt文件

跨平台(Windows)

在Linux上安装gImageReader

注意：您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。

对于Ubuntu，您需要添加一个PPA，然后再安装它。为此，您需要在终端中输入以下内容：

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader

linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update

linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y

linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您还可以从其构建服务中为openSUSE找到它，AUR将成为Arch Linux用户的地方。

到存储库和软件包的所有链接都可以在其GitHub页面中找到。

使用gImageReader的经验

gImageReader是一个非常有用的工具，可以在需要时从图像中提取文本。当您尝试使用PDF文件时，它的效果很好。

因此，您必须自己尝试一下，看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上进行了尝试。

操作步骤

打开 gImageReader

添加pdf

操作结果参照下图：

我只是在管理设置中的语言时遇到了一个问题，但没有得到快速的解决方案。如果遇到此问题，则可能需要对其进行故障排除，并进一步了解如何解决该问题。

除此之外，它工作得很好。

永久链接：https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html返回搜狐，查看更多

责任编辑：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何在linux下从txt文本中提取特定字符旁的数据,小技巧：如何在Linux上从图像和PDF中提取文本...

原标题：小技巧：如何在Linux上从图像和PDF中提取文本简介：gImageReader是一个GUI工具，可利用tesseract OCR引擎从Linux中的图像和PDF文件中提取文本。gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的，然后于2006年开源。基本上，OCR(Optical Character Recognition光学字符识别)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。