一个薪资double的捷径：自动化简历内推工具，2024年最新华为程序员面试题目

2401_84140332

于 2024-04-18 19:43:14 发布

阅读量435

点赞数 20

分类专栏： 2024年程序员学习文章标签：自动化华为面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84140332/article/details/137934589

版权

2024年程序员学习专栏收录该内容

81 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

parser = PDFParser(fp)

PDF文档对象

doc = PDFDocument(parser)

链接解释器和文档对象

parser.set_document(doc)

doc.set_paeser(parser)

初始化文档

doc.initialize(“”)

创建PDF资源管理器

resource = PDFResourceManager()

参数分析器

laparam = LAParams()

创建一个聚合器

device = PDFPageAggregator(resource, laparams=laparam)

创建PDF页面解释器

interpreter = PDFPageInterpreter(resource, device)

使用文档对象得到页面集合

res = ‘’

for page in PDFPage.create_pages(doc):

使用页面解释器来读取

interpreter.process_page(page)

使用聚合器来获取内容

layout = device.get_result()

for out in layout:

if hasattr(out, “get_text”):

res = res + ‘’ + out.get_text()

return res

第四步：读word格式文件。待优化：word中如果包含execl，暂时读不出来。

def word_reader(file):

try:

docx 直接读

if ‘docx’ in file:

res = ‘’

f = docx.Document(file)

for para in f.paragraphs:

res = res + ‘\n’ +para.text

else:

先转格式doc>docx

os.system(“textutil -convert docx ‘%s’”%file)

word_reader(file+‘x’)

res = ‘’

f = docx.Document(file+‘x’)

for para in f.paragraphs:

res = res + ‘\n’ +para.text

return res

except:

print(file, ‘read failed’)

return ‘’

完整代码

encoding: utf-8

import os, sys

import docx

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.layout import LAParams

from pdfminer.converter import PDFPageAggregator

def get_files(path):

res = []

for i in os.listdir(path):

去掉临时文件

if os.path.isfile(path+i) and ‘~$’ not in i and ‘.DS’ not in i:

去重 1.doc 和 1.docx

if (path+i).split(“.”)[0] not in str(res):

res.append(path+i)

return res

def pdf_reader(file):

fp = open(file, “rb”)

创建一个与文档相关联的解释器

parser = PDFParser(fp)

PDF文档对象

doc = PDFDocument(parser)

链接解释器和文档对象

parser.set_document(doc)

doc.set_paeser(parser)

初始化文档

doc.initialize(“”)

创建PDF资源管理器

resource = PDFResourceManager()

参数分析器

laparam = LAParams()

创建一个聚合器

device = PDFPageAggregator(resource, laparams=laparam)

创建PDF页面解释器

interpreter = PDFPageInterpreter(resource, device)

使用文档对象得到页面集合

res = ‘’

for page in PDFPage.create_pages(doc):

使用页面解释器来读取

interpreter.process_page(page)

使用聚合器来获取内容

layout = device.get_result()

for out in layout:

if hasattr(out, “get_text”):

res = res + ‘’ + out.get_text()

return res

def word_reader(file):

try:

docx 直接读

if ‘docx’ in file:

res = ‘’

f = docx.Document(file)

for para in f.paragraphs:

res = res + ‘\n’ +para.text

else:

先转格式doc>docx

os.system(“textutil -convert docx ‘%s’”%file)

在这里插入图片描述

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-wB5se8Uf-1713440583350)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

20
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
一个薪资double的捷径：自动化简历内推工具，2024年最新华为程序员面试题目

第四步：读word格式文件。待优化：word中如果包含execl，暂时读不出来。④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）(img-wB5se8Uf-1713440583350)]①　2000多本Python电子书（主流和经典的书籍应该都有了）③　项目源码（四五十个有趣且经典的练手项目及源码）⑤ Python学习路线图（告别不入流的学习）⑤ Python学习路线图（告别不入流的学习）②　Python标准库资料（最全中文版）
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄105天

240: 原创

-: 周排名

-: 总排名

15万+: 访问

: 等级

5978: 积分

2492: 粉丝

3335: 获赞

11: 评论

3185: 收藏

私信

关注

热门文章

分类专栏

2024年程序员学习 81篇
程序员 146篇

最新评论

Linux之系统安全与应用(1)，程序人生
阿J~: 膜拜技术大佬,也来我博客指点指点呗, 谢谢!
2024年Python最新Django项目中使用celery做异步任务_django中celery实现异步，2024年最新华为笔试面试题库
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 funboot能支持celery作为中间件，用户可以使用funboost的极简api来使用celery核心调度，不用手动复杂的配置操作celery funboost 自动化操作celery https://github.com/ydf0509/funboost_support_celery_demo pip install funboost
最全【JS 逆向 AES逆向加密】Python爬虫实战，日子越来越有判头了(1)，2024年最新滴滴面试算法题
weixin_47211856: 我看刑，日子越来越有判投了
大数据—— Scala 知识点整理_def addx = add(1, int, int)(1)
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大数据进阶之路——Spark SQL基本配置_spark(1)
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。