2024年Java最新GitHub 又一 OCR 神器面世！让你快速告别「复制 + 粘贴」！，java面试视频软件

2401_84688721

已于 2024-05-05 19:15:09 修改

阅读量920

点赞数 11

分类专栏：程序员文章标签： java github ocr

于 2024-05-05 19:15:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84688721/article/details/138471855

版权

程序员专栏收录该内容

115 篇文章 0 订阅

订阅专栏

总结

三个工作日收到了offer，头条面试体验还是很棒的，这次的头条面试好像每面技术都问了我算法，然后就是中间件、MySQL、Redis、Kafka、网络等等。

第一个是算法

关于算法，我觉得最好的是刷题，作死的刷的，多做多练习，加上自己的理解，还是比较容易拿下的。

而且，我貌似是将《算法刷题LeetCode中文版》、《算法的乐趣》大概都过了一遍，尤其是这本

《算法刷题LeetCode中文版》总共有15个章节：编程技巧、线性表、字符串、栈和队列、树、排序、查找、暴力枚举法、广度优先搜索、深度优先搜索、分治法、贪心法、动态规划、图、细节实现题

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

《算法的乐趣》共有23个章节：

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

第二个是Redis、MySQL、kafka（给大家看下我都有哪些复习笔记）

基本上都是面试真题解析、笔记和学习大纲图，感觉复习也就需要这些吧（个人意见）

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

第三个是网络（给大家看一本我之前得到的《JAVA核心知识整理》包括30个章节分类，这本283页的JAVA核心知识整理还是很不错的，一次性总结了30个分享的大知识点）

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

pdf 幻灯片示例。地址：https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf

代码如下：

from pdf2image import convert_from_path

from pdf2image.exceptions import (

PDFInfoNotInstalledError,

PDFPageCountError,

PDFSyntaxError

)

pdf_path = “path/to/file/intro_RL_Lecture1.pdf”

images = convert_from_path(pdf_path)

for i, image in enumerate(images):

fname = “image” + str(i) + “.png”

image.save(fname, “PNG”)

经过处理后，所有的 pdf 幻灯片都转换成 png 格式的图像：

在这里插入图片描述

检测和识别图像中的文本

为了检测和识别 png 图像中的文本，Soares 使用 ocr.pytorch 库中的文本检测器。按照说明下载模型并将模型保存在 checkpoints 文件夹中。

ocr.pytorch 库地址：https://github.com/courao/ocr.pytorch

代码如下：

adapted from this source: https://github.com/courao/ocr.pytorch

%load_ext autoreload

%autoreload 2

import os

from ocr import ocr

import time

import shutil

import numpy as np

import pathlib

from PIL import Image

from glob import glob

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

import pytesseract

def single_pic_proc(image_file):

image = np.array(Image.open(image_file).convert(‘RGB’))

result, image_framed = ocr(image)

return result,image_framed

image_files = glob(‘./input_images/.’)

result_dir = ‘./output_images_with_boxes/’

If the output folder exists we will remove it and redo it.

if os.path.exists(result_dir):

shutil.rmtree(result_dir)

os.mkdir(result_dir)

for image_file in sorted(image_files):

result, image_framed = single_pic_proc(image_file) # detecting and recognizing the text

filename = pathlib.Path(image_file).name

output_file = os.path.join(result_dir, image_file.split(‘/’)[-1])

txt_file = os.path.join(result_dir, image_file.split(‘/’)[-1].split(‘.’)[0]+‘.txt’)

txt_f = open(txt_file, ‘w’)

Image.fromarray(image_framed).save(output_file)

for key in result:

txt_f.write(result[key][1]+‘\n’)

txt_f.close()

设置输入和输出文件夹，接着遍历所有输入图像（转换后的 pdf 幻灯片），然后通过 single_pic_proc () 函数运行 OCR 模块中的检测和识别模型，最后将输出保存到输出文件夹。

其中检测继承（inherit）了 Pytorch CTPN 模型，识别继承了 Pytorch CRNN 模型，两者都存在于 OCR 模块中。

示例输出

代码如下：

总结

机会是留给有准备的人，大家在求职之前应该要明确自己的态度，熟悉求职流程，做好充分的准备，把一些可预见的事情做好。

对于应届毕业生来说，校招更适合你们，因为绝大部分都不会有工作经验，企业也不会有工作经验的需求。同时，你也不需要伪造高大上的实战经验，以此让自己的简历能够脱颖而出，反倒会让面试官有所怀疑。

你在大学时期应该明确自己的发展方向，如果你在大一就确定你以后想成为Java工程师，那就不要花太多的时间去学习其他的技术语言，高数之类的，不如好好想着如何夯实Java基础。下图涵盖了应届生乃至转行过来的小白要学习的Java内容：

请转发本文支持一下

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

转存中…(img-nZTTpudS-1714907692067)]

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄166天

123
原创

1658
点赞

1827
收藏

1305
粉丝

关注

私信

热门文章

分类专栏

程序员 115篇

最新评论

2024年最新一看就懂，Python 日志模块详解及应用_python class logger(1)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
面试官心理分析+面试题剖析：消息队列+Redis 缓存+分布式系统等等
段子手-168: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，
java高并发系列 - 第30天：JUC中工具类CompletableFuture，必备技能
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年当音乐学博士搞起编程，用一本书改变了Java世界！，springdatajpa面试题
A小码: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
最新Python 基于 TCP 传输协议的网络通信实现
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。