最全GitHub 又一 OCR 神器面世！让你快速告别「复制 + 粘贴」！(1)，zookeeper和dubbo面试题

2401_84692538

于 2024-05-13 06:53:48 发布

阅读量713

点赞数 6

分类专栏：程序员文章标签： java 面试学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84692538/article/details/138781243

版权

程序员专栏收录该内容

99 篇文章 0 订阅

订阅专栏

最后

看完美团、字节、腾讯这三家的面试问题，是不是感觉问的特别多，可能咱们又得开启面试造火箭、工作拧螺丝的模式去准备下一次的面试了。

开篇有提及我可是足足背下了1000道题目，多少还是有点用的呢，我看了下，上面这些问题大部分都能从我背的题里找到的，所以今天给大家分享一下互联网工程师必备的面试1000题。

注意不论是我说的互联网面试1000题，还是后面提及的算法与数据结构、设计模式以及更多的Java学习笔记等，皆可分享给各位朋友

最新“美团+字节+腾讯”一二三面问题，挑战一下你能走到哪一面？

互联网工程师必备的面试1000题

而且从上面三家来看，算法与数据结构是必备不可少的呀，因此我建议大家可以去刷刷这本左程云大佬著作的《程序员代码面试指南 IT名企算法与数据结构题目最优解》，里面近200道真实出现过的经典代码面试题。

最新“美团+字节+腾讯”一二三面问题，挑战一下你能走到哪一面？

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

在这里插入图片描述

项目作者 Lucas Soares。

项目地址：https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides

为什么不使用传统的 pdf 转文本工具呢？

Lucas Soares 发现传统工具往往会带来更多的问题，需要花时间解决。他曾经尝试使用传统的 Python 软件包，但是遇到了很多问题（例如必须使用复杂的正则表达式模式解析最终输出等），因此决定尝试使用目标检测和 OCR 来解决。

基本过程可分为以下步骤：

将 pdf 转换为图片；
检测和识别图像中的文本；
展示示例输出。

基于深度学习的 OCR 将 pdf 转录为文本

将 pdf 转换为图像

Soares 使用的 pdf 幻灯片来自于 David Silver 的增强学习（参见以下 pdf 幻灯片地址）。使用「pdf2image」包将每张幻灯片转换为 png 图像格式。

在这里插入图片描述

pdf 幻灯片示例。地址：https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf

代码如下：

from pdf2image import convert_from_path

from pdf2image.exceptions import (

PDFInfoNotInstalledError,

PDFPageCountError,

PDFSyntaxError

)

pdf_path = “path/to/file/intro_RL_Lecture1.pdf”

images = convert_from_path(pdf_path)

for i, image in enumerate(images):

fname = “image” + str(i) + “.png”

image.save(fname, “PNG”)

经过处理后，所有的 pdf 幻灯片都转换成 png 格式的图像：

在这里插入图片描述

检测和识别图像中的文本

为了检测和识别 png 图像中的文本，Soares 使用 ocr.pytorch 库中的文本检测器。按照说明下载模型并将模型保存在 checkpoints 文件夹中。

ocr.pytorch 库地址：https://github.com/courao/ocr.pytorch

代码如下：

adapted from this source: https://github.com/courao/ocr.pytorch

%load_ext autoreload

%autoreload 2

import os

from ocr import ocr

import time

import shutil

import numpy as np

import pathlib

from PIL import Image

from glob import glob

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

import pytesseract

def single_pic_proc(image_file):

image = np.array(Image.open(image_file).convert(‘RGB’))

result, image_framed = ocr(image)

return result,image_framed

image_files = glob(‘./input_images/.’)

result_dir = ‘./output_images_with_boxes/’

If the output folder exists we will remove it and redo it.

if os.path.exists(result_dir):

shutil.rmtree(result_dir)

os.mkdir(result_dir)

难道这样就够了吗？不，远远不够！

提前多熟悉阿里往年的面试题肯定是对面试有很大的帮助的，但是作为技术性职业，手里有实打实的技术才是你面对面试官最有用的利器，这是从内在散发出来的自信。

备战阿里时我花的最多的时间就是在学习技术上，占了我所有学习计划中的百分之70，这是一些我学习期间觉得还是很不错的一些学习笔记

我为什么要写这篇文章呢，其实我觉得学习是不能停下脚步的，在网络上和大家一起分享，一起讨论，不单单可以遇到更多一样的人，还可以扩大自己的眼界，学习到更多的技术，我还会在csdn、博客、掘金等网站上分享技术，这也是一种学习的方法。

今天就分享到这里了，谢谢大家的关注，以后会分享更多的干货给大家！

阿里一面就落马，恶补完这份“阿里面试宝典”后，上岸蚂蚁金服

阿里一面就落马，恶补完这份“阿里面试宝典”后，上岸蚂蚁金服

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)收录**

需要这份系统化的资料的朋友，可以点击这里获取

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
最全GitHub 又一 OCR 神器面世！让你快速告别「复制 + 粘贴」！(1)，zookeeper和dubbo面试题

看完美团、字节、腾讯这三家的面试问题，是不是感觉问的特别多，可能咱们又得开启面试造火箭、工作拧螺丝的模式去准备下一次的面试了。开篇有提及我可是足足背下了1000道题目，多少还是有点用的呢，我看了下，上面这些问题大部分都能从我背的题里找到的，所以今天给大家分享一下。注意不论是我说的互联网面试1000题，还是后面提及的算法与数据结构、设计模式以及更多的Java学习笔记等，皆可分享给各位朋友互联网工程师必备的面试1000题而且从上面三家来看，呀，因此我建议大家可以去，里面近。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。