OpenResume简历解析官方技术文档(翻译)

OpenResume简历解析官方技术文档(翻译)

本文是对OpenResume建立解析器官方技术文档《Resume Parser Playground》的翻译。

相关连接:

OpenResume官网

OpenResume简历解析器的官方地址

OpenResume的Github

简历解析测试环境

该测试环境展示了 OpenResume 简历解析器及其从简历 PDF 中解析信息的能力。

文本使用的测试用的简历:

image-20230908103500467

简历解析结果

Profile
NameCUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。
EmailE-mail:panjiehb@126.com
Phone1881033036
Location
Link
Summary论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月)
Education
School
Degree
GPA
Date
Descriptions
Work Experience
Company
Job Title
Date
Descriptions
Skills
Descriptions

继续深入解析解析器算法

对于技术好奇,本节将深入探讨 OpenResume 解析器算法,并逐步介绍其工作原理的 4 个步骤。 (请注意,该算法旨在解析英文单列简历)。

【步骤 1】读取 PDF 文件中的文本项

PDF 文件是由 ISO 32000 规范 定义的标准化文件格式。 当您使用文本编辑器打开 PDF 文件时,您会注意到原始内容看起来是经过编码的并且难以阅读。 要以可读格式显示它,您需要 PDF 阅读器来解码和查看文件。 类似地,简历解析器首先需要解码 PDF 文件以提取其文本内容。

虽然可以按照 ISO 32000 规范编写自定义 PDF 阅读器函数,但利用现有库要简单得多。 在本例中,简历解析器使用 Mozilla 的开源 pdf.js 库首先提取文件中的所有文本项。

下表列出了从添加的简历 PDF 中提取的 502 个文本项。 文本项包含文本内容以及有关该内容的一些元数据,例如 它在文档中的 x, y 位置,字体是否加粗,或者是否开始新行。 (注意x,y位置是相对于页面左下角,即原点0,0)。

#Text ContentMetadata
1潘 洁X₁=277 X₂=321 Y=778
2X=261 Y=757 NewLine
3Tel:18810330361X₁=261 X₂=335 Y=757
4X=237 Y=742 NewLine
5E-mailX₁=237 X₂=265 Y=742
6X₁=265 X₂=276 Y=742
7panjiehb@126.comX₁=276 X₂=358 Y=742
8X=203 Y=729 NewLine
9地址:北京市海淀区中关村南大街X₁=203 X₂=361 Y=729
105X₁=363 X₂=369 Y=729
11号院X₁=371 X₂=392 Y=729
12X=57 Y=703 NewLine
13个人信息X₁=57 X₂=113 Y=703
14X=57 Y=683 NewLine
15X₁=57 X₂=67 Y=683
16名:X₁=88 X₂=109 Y=683
17潘洁X₁=109 X₂=130 Y=683
18X₁=340 X₂=351 Y=683
19别:女X₁=372 X₂=403 Y=683
20X=57 Y=667 NewLine
21X₁=57 X₂=67 Y=667
22族:汉族X₁=88 X₂=130 Y=667
23出生年月:X₁=340 X₂=393 Y=667
241987X₁=393 X₂=414 Y=667
25X₁=416 X₂=427 Y=667
266X₁=429 X₂=435 Y=667
27X₁=437 X₂=448 Y=667
28X=57 Y=652 NewLine
29X₁=57 X₂=67 Y=652
30贯:河北涿州X₁=88 X₂=151 Y=652
31X₁=340 X₂=351 Y=652
32历:工学硕士X₁=372 X₂=435 Y=652
33X=57 Y=637 NewLine
34X₁=57 X₂=67 Y=637
35校:北京理工大学X₁=88 X₂=172 Y=637
36X₁=340 X₂=351 Y=637
37X₁=372 X₂=382 Y=637
38:X₁=382 X₂=385 Y=637
39控制科学与工程X₁=393 X₂=466 Y=637
40X=57 Y=622 NewLine
41英语水平:X₁=57 X₂=109 Y=622
42CETX₁=109 X₂=129 Y=622
43-X₁=128 X₂=132 Y=622
446X₁=132 X₂=137 Y=622
45毕业时间:X₁=342 X₂=394 Y=622
462014X₁=394 X₂=415 Y=622
47X₁=418 X₂=428 Y=622
483X₁=431 X₂=436 Y=622
49X₁=439 X₂=449 Y=622
50X=57 Y=596 NewLine
51教育背景X₁=57 X₂=113 Y=596
52X=57 Y=575 NewLine
532011.09-2014.03X₁=57 X₂=132 Y=575
54X₁=132 X₂=143 Y=575
55北京X₁=142 X₂=165 Y=575
56理工X₁=165 X₂=187 Y=575
57大学X₁=187 X₂=209 Y=575
58X₁=209 X₂=220 Y=575
59985X₁=220 X₂=236 Y=575 Bold
60X₁=236 X₂=247 Y=575
61·X₁=247 X₂=256 Y=575 Bold
62自动化学院X₁=251 X₂=306 Y=575
63·X₁=306 X₂=315 Y=575 Bold
64控制科学与工程X₁=310 X₂=387 Y=575
65X=145 Y=560 NewLine
66获得学位:X₁=145 X₂=198 Y=560
67工学硕士X₁=198 X₂=240 Y=560
68(免试)X₁=240 X₂=282 Y=560
69排名X₁=303 X₂=324 Y=560
70:前X₁=324 X₂=345 Y=560
715%X₁=348 X₂=362 Y=560
72GPAX₁=393 X₂=414 Y=560 Bold
73X₁=414 X₂=425 Y=560
7488/100X₁=425 X₂=454 Y=560
75X=145 Y=544 NewLine
76硕士论文:X₁=145 X₂=198 Y=544
77X₁=193 X₂=203 Y=544
78动态场景中运动目标检测与跟踪技术的研究X₁=203 X₂=403 Y=544
79X₁=403 X₂=413 Y=544
80X=145 Y=528 NewLine
81主修课程:X₁=145 X₂=198 Y=528
82随机过程理论及应用(X₁=198 X₂=303 Y=528
8393X₁=303 X₂=313 Y=528
84X₁=313 X₂=324 Y=528
85、智能控制(X₁=318 X₂=381 Y=528
8690X₁=381 X₂=392 Y=528
87X₁=392 X₂=402 Y=528
88、智能信息处理(X₁=397 X₂=481 Y=528
8993X₁=481 X₂=492 Y=528
90X₁=492 X₂=502 Y=528
91、模式识X₁=497 X₂=539 Y=528
92X=145 Y=513 NewLine
93别(X₁=145 X₂=166 Y=513
9493X₁=167 X₂=177 Y=513
95X₁=177 X₂=188 Y=513
96、线性系统理论(X₁=183 X₂=267 Y=513
9789X₁=268 X₂=278 Y=513
98X₁=278 X₂=289 Y=513
99、应用数理统计(X₁=284 X₂=369 Y=513
10096X₁=369 X₂=379 Y=513
101X₁=379 X₂=390 Y=513
102,多智能体协同与控制(X₁=385 X₂=501 Y=513
10380X₁=502 X₂=512 Y=513
104X₁=512 X₂=523 Y=513
105,嵌X₁=518 X₂=539 Y=513
106X=145 Y=497 NewLine
107入式系统与应用(X₁=145 X₂=229 Y=497
10889X₁=229 X₂=240 Y=497
109X₁=240 X₂=250 Y=497
110,自动控制中的线性代数(X₁=245 X₂=371 Y=497
11176X₁=371 X₂=382 Y=497
112X₁=382 X₂=392 Y=497
113X₁=387 X₂=397 Y=497
114X=62 Y=475 NewLine
1152007.09-2011.06X₁=62 X₂=137 Y=475
116X₁=137 X₂=148 Y=475
117太原X₁=148 X₂=170 Y=475
118理工X₁=170 X₂=192 Y=475
119大学X₁=192 X₂=214 Y=475
120X₁=214 X₂=225 Y=475
121211X₁=225 X₂=241 Y=475 Bold
122X₁=241 X₂=252 Y=475
123·X₁=252 X₂=261 Y=475 Bold
124信息工程X₁=256 X₂=300 Y=475
125学院X₁=300 X₂=322 Y=475
126·X₁=322 X₂=331 Y=475 Bold
127自动化X₁=326 X₂=359 Y=475
128X=151 Y=460 NewLine
129获得学位:X₁=151 X₂=203 Y=460
130工学学士X₁=203 X₂=245 Y=460
131排名X₁=313 X₂=334 Y=460
132X₁=334 X₂=345 Y=460
1331/138X₁=345 X₂=369 Y=460
134GPAX₁=406 X₂=427 Y=460 Bold
135X₁=427 X₂=438 Y=460
1369X₁=438 X₂=443 Y=460
1372X₁=443 X₂=448 Y=460
138/100X₁=448 X₂=467 Y=460
139X=151 Y=444 NewLine
140学士论文:X₁=151 X₂=203 Y=444
141X₁=198 X₂=208 Y=444
142车牌识别X₁=208 X₂=250 Y=444
143系统设计X₁=250 X₂=292 Y=444
144X₁=292 X₂=303 Y=444
145X=151 Y=428 NewLine
146主修课程:X₁=151 X₂=203 Y=428
147自动控制理论(X₁=203 X₂=277 Y=428
14897X₁=277 X₂=287 Y=428
149X₁=287 X₂=298 Y=428
150、过程控制系统(X₁=292 X₂=376 Y=428
151100X₁=376 X₂=392 Y=428
152X₁=392 X₂=402 Y=428
153、模拟电子技术(X₁=397 X₂=481 Y=428
15497X₁=481 X₂=492 Y=428
155X₁=492 X₂=502 Y=428
156、数字电X₁=497 X₂=539 Y=428
157X=151 Y=413 NewLine
158子技术(X₁=151 X₂=193 Y=413
15996X₁=193 X₂=203 Y=413
160X₁=203 X₂=214 Y=413
161、电力电子技术(X₁=208 X₂=292 Y=413
16299X₁=292 X₂=303 Y=413
163X₁=303 X₂=313 Y=413
164、嵌入式系统基础(X₁=308 X₂=402 Y=413
16597X₁=402 X₂=413 Y=413
166X₁=413 X₂=423 Y=413
167、电路理论(X₁=418 X₂=481 Y=413
16897X₁=481 X₂=492 Y=413
169X₁=492 X₂=502 Y=413
170、模糊控X₁=497 X₂=539 Y=413
171X=151 Y=397 NewLine
172制系统(X₁=151 X₂=193 Y=397
17395X₁=193 X₂=203 Y=397
174X₁=203 X₂=214 Y=397
175,传感器原理与接口技术(X₁=208 X₂=334 Y=397
17695X₁=334 X₂=345 Y=397
177X₁=345 X₂=355 Y=397
178,现场总线与分布式系统(X₁=350 X₂=476 Y=397
17995X₁=476 X₂=487 Y=397
180X₁=487 X₂=497 Y=397
181X₁=492 X₂=502 Y=397
182X=62 Y=376 NewLine
183科研成果X₁=62 X₂=118 Y=376
184&X₁=118 X₂=130 Y=376 Bold
185获奖情况X₁=130 X₂=186 Y=376
186X=57 Y=353 NewLine
187X₁=57 X₂=67 Y=353
188论文X₁=75 X₂=96 Y=353
189: A new moving objects detection method basedX₁=96 X₂=299 Y=353
190on improved SURF algorithmX₁=302 X₂=428 Y=353
191,第X₁=428 X₂=449 Y=353
19225X₁=452 X₂=463 Y=353
193届中国控制与决X₁=465 X₂=539 Y=353
194X=75 Y=338 NewLine
195策会议(X₁=75 X₂=117 Y=338
196EIX₁=117 X₂=127 Y=338
197X₁=126 X₂=137 Y=338
198,已收录。X₁=132 X₂=184 Y=338
199X=57 Y=322 NewLine
200X₁=57 X₂=67 Y=322
201专利X₁=75 X₂=96 Y=322
202:基于多相机旋转扫描的实时全景监控方法和装置。X₁=96 X₂=337 Y=322
203X=57 Y=306 NewLine
204X₁=57 X₂=67 Y=306
205国家级:X₁=75 X₂=117 Y=306
206国家奖学金X₁=117 X₂=169 Y=306
2071X₁=172 X₂=177 Y=306
208X₁=180 X₂=190 Y=306
209(1/200)X₁=190 X₂=221 Y=306
210X₁=221 X₂=232 Y=306
211国家励志奖学金X₁=232 X₂=306 Y=306
2122X₁=308 X₂=314 Y=306
213X₁=316 X₂=327 Y=306
214(3/100)X₁=327 X₂=358 Y=306
215X₁=358 X₂=368 Y=306
216X=57 Y=291 NewLine
217X₁=57 X₂=67 Y=291
218省级:X₁=75 X₂=106 Y=291
219X₁=106 X₂=111 Y=291
220山西省优秀毕业生X₁=111 X₂=195 Y=291
221X₁=195 X₂=200 Y=291
222称号X₁=200 X₂=221 Y=291
223(1/200)X₁=221 X₂=252 Y=291
224X₁=252 X₂=262 Y=291
225X=57 Y=275 NewLine
226X₁=57 X₂=67 Y=275
227校级:特等奖学金X₁=75 X₂=159 Y=275
2284X₁=161 X₂=167 Y=275
229X₁=169 X₂=180 Y=275
230(1/200)X₁=180 X₂=211 Y=275
231、一等奖学金X₁=211 X₂=274 Y=275
2322X₁=276 X₂=281 Y=275
233X₁=284 X₂=295 Y=275
234(3/100)X₁=295 X₂=325 Y=275
235;三好学生X₁=325 X₂=378 Y=275
236(3/100)X₁=378 X₂=409 Y=275
237;优秀团员X₁=409 X₂=461 Y=275
238(5/100)X₁=461 X₂=492 Y=275
239X₁=492 X₂=503 Y=275
240X₁=503 X₂=507 Y=275
241太原理X₁=507 X₂=539 Y=275
242X=75 Y=260 NewLine
243工大学优秀毕业生X₁=75 X₂=159 Y=260
244X₁=159 X₂=163 Y=260
245(3/100)X₁=163 X₂=194 Y=260
246X₁=194 X₂=205 Y=260
247X=57 Y=237 NewLine
248技能素质X₁=57 X₂=113 Y=237
249X=57 Y=214 NewLine
250X₁=57 X₂=67 Y=214
251英语水平X₁=78 X₂=120 Y=214
252X₁=120 X₂=130 Y=214
253CETX₁=130 X₂=150 Y=214
254-X₁=149 X₂=153 Y=214
2556X₁=153 X₂=158 Y=214
256,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。X₁=158 X₂=442 Y=214
257X=57 Y=199 NewLine
258X₁=57 X₂=67 Y=199
259计算机X₁=78 X₂=109 Y=199
260:X₁=109 X₂=112 Y=199
261通过X₁=118 X₂=139 Y=199
262国家计算机等级考试(二级X₁=139 X₂=265 Y=199
263CX₁=267 X₂=274 Y=199
264X₁=274 X₂=285 Y=199
265X₁=279 X₂=290 Y=199
266熟练应用X₁=290 X₂=332 Y=199
267OX₁=335 X₂=342 Y=199
268fficeX₁=342 X₂=361 Y=199
269软件。X₁=364 X₂=395 Y=199
270X=57 Y=183 NewLine
271X₁=57 X₂=67 Y=183
272软件编程X₁=78 X₂=120 Y=183
273X₁=120 X₂=130 Y=183
274熟练应用X₁=130 X₂=172 Y=183
275C/C++X₁=174 X₂=203 Y=183
276X₁=203 X₂=214 Y=183
277MFCX₁=213 X₂=235 Y=183
278等编程技术,X₁=238 X₂=301 Y=183
279擅长X₁=300 X₂=321 Y=183
280Win32X₁=324 X₂=352 Y=183
281平台软件开发与应用,熟练应用X₁=354 X₂=501 Y=183
282MFCX₁=503 X₂=525 Y=183
283X₁=528 X₂=539 Y=183
284X=78 Y=168 NewLine
285行人机交互界面的开发。X₁=78 X₂=193 Y=168
286X=57 Y=152 NewLine
287X₁=57 X₂=67 Y=152
288OpenCVX₁=78 X₂=117 Y=152 Bold
289X₁=117 X₂=128 Y=152
290熟练掌握采用X₁=128 X₂=191 Y=152
291OpenCVX₁=194 X₂=231 Y=152
292X₁=234 X₂=245 Y=152
293C/C++X₁=247 X₂=276 Y=152
294对数字图像处理算法进行开发与应用,熟练掌握各种流行X₁=276 X₂=539 Y=152
295X=78 Y=136 NewLine
296的目标检测与跟踪技术。X₁=78 X₂=193 Y=136
297X=57 Y=121 NewLine
298X₁=57 X₂=67 Y=121
299CUDAX₁=78 X₂=108 Y=121 Bold
300X₁=108 X₂=119 Y=121
301深入了解X₁=119 X₂=161 Y=121
302CUDX₁=163 X₂=185 Y=121
303AX₁=185 X₂=193 Y=121
304开发平台和编程模型,掌握X₁=196 X₂=322 Y=121
305CUDAX₁=324 X₂=354 Y=121
306并行编程技术。X₁=357 X₂=430 Y=121
307X=57 Y=105 NewLine
308X₁=57 X₂=67 Y=105
309专业基础X₁=78 X₂=120 Y=105
310X₁=120 X₂=130 Y=105
311在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪X₁=130 X₂=539 Y=105
312X=78 Y=90 NewLine
313表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。X₁=78 X₂=456 Y=90
314X=57 Y=74 NewLine
315X₁=57 X₂=67 Y=74
316其他技能X₁=78 X₂=120 Y=74
317X₁=120 X₂=130 Y=74
318熟悉X₁=128 X₂=149 Y=74
319MatlabX₁=151 X₂=181 Y=74
320X₁=181 X₂=192 Y=74
321VBX₁=189 X₂=204 Y=74
322X₁=204 X₂=214 Y=74
323JavaX₁=211 X₂=230 Y=74
324X₁=230 X₂=241 Y=74
325VHDLX₁=238 X₂=267 Y=74
326等编程语言,X₁=270 X₂=333 Y=74
327熟悉X₁=330 X₂=351 Y=74
328linuxX₁=354 X₂=376 Y=74
329操作系统,X₁=378 X₂=431 Y=74
330熟悉X₁=428 X₂=449 Y=74
331SQL ServerX₁=452 X₂=501 Y=74
332X₁=501 X₂=512 Y=74
333AccessX₁=509 X₂=539 Y=74
334X=78 Y=58 NewLine
335等数据库,熟悉X₁=78 X₂=151 Y=58
336boostingX₁=154 X₂=190 Y=58
337、决策树、随机森林、支持向量机、X₁=190 X₂=358 Y=58
338KNNX₁=358 X₂=381 Y=58
339等机器学习算法。X₁=383 X₂=468 Y=58
340项目经历X₁=57 X₂=113 Y=779
341X=57 Y=756 NewLine
342X₁=57 X₂=67 Y=756
3432011.9~2013.12X₁=78 X₂=146 Y=756 Bold
344X₁=146 X₂=156 Y=756
345周视目标监控系统X₁=154 X₂=238 Y=756
346兵科集团重点项目X₁=454 X₂=539 Y=756
347X=78 Y=741 NewLine
348项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危X₁=78 X₂=539 Y=741 NewLine
349险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。X₁=78 X₂=435 Y=725
350X=78 Y=710 NewLine
351项目职责:采用X₁=78 X₂=151 Y=710
352MFCX₁=155 X₂=177 Y=710
353实现人机交互界面,图像拼接算法的X₁=182 X₂=350 Y=710
354设计与实现,目标检测与跟踪算法的X₁=350 X₂=518 Y=710
355设计X₁=518 X₂=539 Y=710
356X=78 Y=694 NewLine
357与实现。X₁=78 X₂=120 Y=694
358X=57 Y=678 NewLine
359X₁=57 X₂=67 Y=678
3602011.1~X₁=78 X₂=111 Y=678 Bold
361至今:X₁=111 X₂=143 Y=678
362基于分布式传感器特征融合的目标自动识别X₁=143 X₂=343 Y=678
363系统X₁=343 X₂=365 Y=678
364总装备部重点项目X₁=454 X₂=538 Y=678
365X=78 Y=663 NewLine
366项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取X₁=78 X₂=539 Y=663 NewLine
367并融合所得到的特征,进而对目标进行跟踪和识别。X₁=78 X₂=319 Y=647
368X=78 Y=632 NewLine
369项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究X₁=78 X₂=496 Y=632
370TLDX₁=502 X₂=523 Y=632
371X₁=528 X₂=539 Y=632
372X=78 Y=616 NewLine
373BoostingX₁=78 X₂=116 Y=616
374跟踪算法。X₁=118 X₂=171 Y=616
375X=57 Y=600 NewLine
376X₁=57 X₂=67 Y=600
3772012.9~2013.6X₁=78 X₂=141 Y=600 Bold
378X₁=141 X₂=151 Y=600
379军用软件并行技术研究X₁=151 X₂=257 Y=600
380国家自然科学基金X₁=451 X₂=536 Y=600
381X=78 Y=585 NewLine
382项目介绍:针对军用共性软件的实时性问题,开展针对X₁=78 X₂=330 Y=585
383GPUX₁=332 X₂=354 Y=585
384平台的并行加X₁=356 X₂=419 Y=585
385速技术研究。X₁=419 X₂=482 Y=585
386X=78 Y=569 NewLine
387项目职责:X₁=78 X₂=130 Y=569
388X₁=126 X₂=137 Y=569
389hogX₁=139 X₂=155 Y=569
390行人检测X₁=158 X₂=200 Y=569
391算法、X₁=200 X₂=231 Y=569
392STFTX₁=228 X₂=252 Y=569
393算子和X₁=255 X₂=286 Y=569
394SURFX₁=289 X₂=315 Y=569
395算子进行X₁=318 X₂=360 Y=569
396CUDAX₁=362 X₂=392 Y=569
397并行加速X₁=395 X₂=437 Y=569
398研究X₁=437 X₂=458 Y=569
399X₁=458 X₂=468 Y=569
400X₁=465 X₂=475 Y=569
401实现了X₁=475 X₂=507 Y=569
402CUDAX₁=509 X₂=539 Y=569
403X=78 Y=554 NewLine
404平台下的目标检测算法,满足了系统的实时性要求。X₁=78 X₂=319 Y=554
405X=57 Y=538 NewLine
406X₁=57 X₂=67 Y=538
4072011.1~X₁=78 X₂=111 Y=538 Bold
408至今:X₁=111 X₂=143 Y=538
409视线辅助操控系统X₁=143 X₂=227 Y=538
410总装备部重点项目X₁=454 X₂=539 Y=538
411X=78 Y=522 NewLine
412项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步X₁=78 X₂=539 Y=522 NewLine
413瞄准的效果。X₁=78 X₂=141 Y=507
414X=78 Y=491 NewLine
415项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。X₁=78 X₂=530 Y=491
416X=57 Y=476 NewLine
417X₁=57 X₂=67 Y=476
4182010.9~2011.6X₁=78 X₂=140 Y=476 Bold
419X₁=140 X₂=151 Y=476
420车牌识别系统X₁=151 X₂=214 Y=476
421大学生创新项目X₁=462 X₂=536 Y=476
422X=78 Y=460 NewLine
423项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。X₁=78 X₂=509 Y=460
424X=78 Y=444 NewLine
425项目职责:采用X₁=78 X₂=151 Y=444
426MFCX₁=154 X₂=176 Y=444
427实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。X₁=179 X₂=536 Y=444
428X=57 Y=420 NewLine
429实习经历X₁=57 X₂=113 Y=420
430X=57 Y=398 NewLine
431X₁=57 X₂=67 Y=398
432中科院自动化所X₁=78 X₂=152 Y=398
433X₁=152 X₂=162 Y=398
4342013X₁=162 X₂=183 Y=398
435X₁=186 X₂=196 Y=398
4362X₁=199 X₂=204 Y=398
437X₁=207 X₂=217 Y=398
438X₁=217 X₂=228 Y=398
4392013X₁=228 X₂=249 Y=398
440X₁=251 X₂=262 Y=398
4415X₁=265 X₂=270 Y=398
442月)X₁=272 X₂=293 Y=398
443X=78 Y=382 NewLine
444实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了X₁=78 X₂=506 Y=382
44590%X₁=509 X₂=528 Y=382
446X₁=528 X₂=539 Y=382
447X=78 Y=366 NewLine
448右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注X₁=78 X₂=539 Y=366
449X=78 Y=351 NewLine
450并保存标注结果。X₁=78 X₂=162 Y=351
451X=57 Y=335 NewLine
452X₁=57 X₂=67 Y=335
453国家电网X₁=78 X₂=120 Y=335
454X₁=120 X₂=124 Y=335 Bold
455智研院X₁=124 X₂=155 Y=335
456X₁=155 X₂=159 Y=335 Bold
457中电普瑞科技有限公司X₁=159 X₂=264 Y=335
458X₁=264 X₂=275 Y=335
4592013X₁=275 X₂=296 Y=335
460X₁=298 X₂=309 Y=335
4617X₁=312 X₂=317 Y=335
462X₁=320 X₂=330 Y=335
463X₁=330 X₂=341 Y=335
4642013X₁=341 X₂=362 Y=335
465X₁=364 X₂=375 Y=335
4668X₁=377 X₂=383 Y=335
467月)X₁=385 X₂=406 Y=335
468X=78 Y=320 NewLine
469实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编X₁=78 X₂=539 Y=320 NewLine
470写了国网技术学院项目各种装置的调试规程。X₁=78 X₂=288 Y=304
471X=57 Y=280 NewLine
472社会活动X₁=57 X₂=113 Y=280
473X=57 Y=257 NewLine
474X₁=57 X₂=67 Y=257
475入选北京市高中生X₁=78 X₂=162 Y=257
476X₁=162 X₂=166 Y=257
477翱翔计划X₁=166 X₂=208 Y=257
478X₁=208 X₂=213 Y=257
479辅导老师,指导两名学员完成创新课题项目。X₁=213 X₂=423 Y=257
480X=57 Y=242 NewLine
481X₁=57 X₂=67 Y=242
482担任爱心家园心语室部长,多次组织大型爱心活动。X₁=78 X₂=319 Y=242
483X=57 Y=226 NewLine
484X₁=57 X₂=67 Y=226
485智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招X₁=78 X₂=539 Y=226
486X=78 Y=210 NewLine
487聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。X₁=78 X₂=362 Y=210
488X=57 Y=195 NewLine
489X₁=57 X₂=67 Y=195
490参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大X₁=78 X₂=539 Y=195
491X=78 Y=179 NewLine
492型宣传活动。X₁=78 X₂=141 Y=179
493X=57 Y=155 NewLine
494自我评价X₁=57 X₂=113 Y=155
495X=78 Y=132 NewLine
496在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人X₁=78 X₂=539 Y=132 NewLine
497真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的X₁=57 X₂=539 Y=117 NewLine
498交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思X₁=57 X₂=539 Y=102 NewLine
499维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目,X₁=57 X₂=540 Y=87 NewLine
500具备工程实践经验。X₁=57 X₂=151 Y=72
501X=78 Y=57 NewLine
502兴趣爱好:旅游、摄影、跑步、羽毛球等。X₁=78 X₂=277 Y=57

【步骤 2】将文本项 Text Item 组合成行

提取的文本项目还没有准备好使用,有两个主要问题:

问题1:它们有一些讨厌的噪音。

一些单一的文本项目可以被分解成多个,正如你在上面的表格中看到的,例如一个电话号码 “(123)456-7890” 可能被分解成3个文本项目 “(123)456” ,"-” 和 “7890”。

解决方案:为解决此问题,如果相邻文本项的距离小于平均典型字符宽度 Distance,则简历解析器将相邻文本项连接为一个文本项,其中 Distance = RightTextItemX₁ - LeftTextItemX₂ 平均典型字符宽度是通过将所有文本项的宽度之和除以文本项的总字符数来计算的(排除粗体文本和新行元素,以避免结果偏斜)。

问题2:它们缺乏上下文和关联。

当我们读简历时,我们会逐行浏览。我们的大脑可以通过文本的粗细和距离等视觉线索来处理每个段落,这样我们就可以快速地将文本联系在一起,形成一个相关的组。然而,提取的文本项 目前没有这些上下文/关联,只是脱节的元素。

**解决方案:**为了解决这个问题,简历解析器重建了这些上下文和关联,类似于我们的大脑阅读和处理简历的方式。它首先将文本项组合成行,因为我们逐行读取文本。然后,它将行组合为段落,这将在下一步中讨论。

在【步骤2】结束时,简历解析器从添加的简历PDF中提取86行,如下表所示。当以行形式显示时,结果更加可读。(有些行可能有多个文本项,它们由蓝色垂直分隔符分隔)。

LinesLine Content
1潘 洁
2Tel:18810330361
3E-mail:panjiehb@126.com
4地址:北京市海淀区中关村南大街5号院
5个人信息
6姓 | 名:潘洁 | 性 | 别:女
7民 | 族:汉族 | 出生年月:1987年6月
8籍 | 贯:河北涿州 | 学 | 历:工学硕士
9学 | 校:北京理工大学 | 专 | 业: 控制科学与工程
10英语水平:CET-6 | 毕业时间:2014年3月
11教育背景
122011.09-2014.03:北京理工大学(985)·自动化学院·控制科学与工程
13获得学位:工学硕士(免试) | 排名:前5% | GPA:88/100
14硕士论文:《动态场景中运动目标检测与跟踪技术的研究》
15主修课程:随机过程理论及应用(93)、智能控制(90)、智能信息处理(93)、模式识
16别(93)、线性系统理论(89)、应用数理统计(96),多智能体协同与控制(80),嵌
17入式系统与应用(89),自动控制中的线性代数(76)。
182007.09-2011.06:太原理工大学(211)·信息工程学院·自动化
19获得学位:工学学士 | 排名:1/138 | GPA:92/100
20学士论文:《车牌识别系统设计》
21主修课程:自动控制理论(97)、过程控制系统(100)、模拟电子技术(97)、数字电
22子技术(96)、电力电子技术(99)、嵌入式系统基础(97)、电路理论(97)、模糊控
23制系统(95),传感器原理与接口技术(95),现场总线与分布式系统(95)。
24科研成果&获奖情况
25论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决
26策会议(EI),已收录。
27专利:基于多相机旋转扫描的实时全景监控方法和装置。
28国家级:国家奖学金1次(1/200);国家励志奖学金2次(3/100)。
29省级:“山西省优秀毕业生”称号(1/200)。
30校级:特等奖学金4次(1/200)、一等奖学金2次(3/100);三好学生(3/100);优秀团员(5/100);“太原理
31工大学优秀毕业生”(3/100)。
32技能素质
33 | 英语水平:CET-6,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。
34 | 计算机: 通过国家计算机等级考试(二级C),熟练应用Office软件。
35 | 软件编程:熟练应用C/C++、MFC等编程技术,擅长Win32平台软件开发与应用,熟练应用MFC进
36行人机交互界面的开发。
37 | OpenCV:熟练掌握采用OpenCV和C/C++对数字图像处理算法进行开发与应用,熟练掌握各种流行
38的目标检测与跟踪技术。
39 | CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。
40 | 专业基础:在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪
41表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。
42 | 其他技能:熟悉Matlab、VB、Java、VHDL等编程语言,熟悉linux操作系统,熟悉SQL Server、Access
43等数据库,熟悉boosting、决策树、随机森林、支持向量机、KNN等机器学习算法。项目经历
44 | 2011.9~2013.12:周视目标监控系统 | 兵科集团重点项目
45项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危
46险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。
47项目职责:采用MFC实现人机交互界面,图像拼接算法的设计与实现,目标检测与跟踪算法的设计
48与实现。
49 | 2011.1~至今:基于分布式传感器特征融合的目标自动识别系统 | 总装备部重点项目
50项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取
51并融合所得到的特征,进而对目标进行跟踪和识别。
52项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究TLD和
53Boosting跟踪算法。
54 | 2012.9~2013.6:军用软件并行技术研究 | 国家自然科学基金
55项目介绍:针对军用共性软件的实时性问题,开展针对GPU平台的并行加速技术研究。
56项目职责:对hog行人检测算法、STFT算子和SURF算子进行CUDA并行加速研究,并实现了CUDA
57平台下的目标检测算法,满足了系统的实时性要求。
58 | 2011.1~至今:视线辅助操控系统 | 总装备部重点项目
59项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步
60瞄准的效果。
61项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。
62 | 2010.9~2011.6:车牌识别系统 | 大学生创新项目
63项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。
64项目职责:采用MFC实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。
65实习经历
66 | 中科院自动化所(2013年2月—2013年5月)
67实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了90%左
68右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注
69并保存标注结果。
70 | 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月)
71实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编
72写了国网技术学院项目各种装置的调试规程。
73社会活动
74 | 入选北京市高中生“翱翔计划”辅导老师,指导两名学员完成创新课题项目。
75 | 担任爱心家园心语室部长,多次组织大型爱心活动。
76 | 智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招
77聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。
78 | 参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大
79型宣传活动。
80自我评价
81在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人
82真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的
83交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思
84维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目,
85具备工程实践经验。
86兴趣爱好:旅游、摄影、跑步、羽毛球等。

【步骤3】将线条lines组合成段落sections

在【步骤2】中,简历解析器首先通过将文本项组合成行,开始构建上下文和与文本项的关联。【步骤3】继续这个过程,通过将线条组合成段落来构建额外的关联。

请注意,每个段落(除了配置文件段落)都以一个占据整行内容的段落标题开始。这不仅在简历中很常见,在书籍和博客中也很常见。简历解析器使用此模式将行组合到这些行上面最接近的段落标题中。

简历解析器应用一些启发式方法来检测段落标题。确定段落标题的主要启发式方法是检查它是否满足以下3个条件:

  1. 它是该行中唯一的文本项
  2. 它是粗体字
  3. 它的字母都是大写

简而言之,如果文本项被双重强调,既加粗的同时又是大写,那么它很可能是简历中的章节标题。对于一份格式良好的简历来说,这通常是正确的。可能会有例外,但在这些情况下,可能不是很好地使用粗体和大写字母。

如果主要启发式不适用,简历解析器也有一个回退启发式。回退启发式主要针对常见的简历段落标题关键字列表执行关键字匹配。

在【步骤3】的末尾,简历解析器识别简历中的段落,并将这些行与相关的段落标题组合,如下表所示。注意,段落标题是加粗的,与该段落相关的行用相同的颜色突出显示。

LinesLine Content
PROFILE
1潘 洁
2Tel:18810330361
3E-mail:panjiehb@126.com
4地址:北京市海淀区中关村南大街5号院
5个人信息
6姓 | 名:潘洁 | 性 | 别:女
7民 | 族:汉族 | 出生年月:1987年6月
8籍 | 贯:河北涿州 | 学 | 历:工学硕士
9学 | 校:北京理工大学 | 专 | 业: 控制科学与工程
10英语水平:CET-6 | 毕业时间:2014年3月
11教育背景
122011.09-2014.03:北京理工大学(985)·自动化学院·控制科学与工程
13获得学位:工学硕士(免试) | 排名:前5% | GPA:88/100
14硕士论文:《动态场景中运动目标检测与跟踪技术的研究》
15主修课程:随机过程理论及应用(93)、智能控制(90)、智能信息处理(93)、模式识
16别(93)、线性系统理论(89)、应用数理统计(96),多智能体协同与控制(80),嵌
17入式系统与应用(89),自动控制中的线性代数(76)。
182007.09-2011.06:太原理工大学(211)·信息工程学院·自动化
19获得学位:工学学士 | 排名:1/138 | GPA:92/100
20学士论文:《车牌识别系统设计》
21主修课程:自动控制理论(97)、过程控制系统(100)、模拟电子技术(97)、数字电
22子技术(96)、电力电子技术(99)、嵌入式系统基础(97)、电路理论(97)、模糊控
23制系统(95),传感器原理与接口技术(95),现场总线与分布式系统(95)。
24科研成果&获奖情况
25论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决
26策会议(EI),已收录。
27专利:基于多相机旋转扫描的实时全景监控方法和装置。
28国家级:国家奖学金1次(1/200);国家励志奖学金2次(3/100)。
29省级:“山西省优秀毕业生”称号(1/200)。
30校级:特等奖学金4次(1/200)、一等奖学金2次(3/100);三好学生(3/100);优秀团员(5/100);“太原理
31工大学优秀毕业生”(3/100)。
32技能素质
33 | 英语水平:CET-6,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。
34 | 计算机: 通过国家计算机等级考试(二级C),熟练应用Office软件。
35 | 软件编程:熟练应用C/C++、MFC等编程技术,擅长Win32平台软件开发与应用,熟练应用MFC进
36行人机交互界面的开发。
37 | OpenCV:熟练掌握采用OpenCV和C/C++对数字图像处理算法进行开发与应用,熟练掌握各种流行
38的目标检测与跟踪技术。
39 | CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。
40 | 专业基础:在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪
41表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。
42 | 其他技能:熟悉Matlab、VB、Java、VHDL等编程语言,熟悉linux操作系统,熟悉SQL Server、Access
43等数据库,熟悉boosting、决策树、随机森林、支持向量机、KNN等机器学习算法。项目经历
44 | 2011.9~2013.12:周视目标监控系统 | 兵科集团重点项目
45项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危
46险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。
47项目职责:采用MFC实现人机交互界面,图像拼接算法的设计与实现,目标检测与跟踪算法的设计
48与实现。
49 | 2011.1~至今:基于分布式传感器特征融合的目标自动识别系统 | 总装备部重点项目
50项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取
51并融合所得到的特征,进而对目标进行跟踪和识别。
52项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究TLD和
53Boosting跟踪算法。
54 | 2012.9~2013.6:军用软件并行技术研究 | 国家自然科学基金
55项目介绍:针对军用共性软件的实时性问题,开展针对GPU平台的并行加速技术研究。
56项目职责:对hog行人检测算法、STFT算子和SURF算子进行CUDA并行加速研究,并实现了CUDA
57平台下的目标检测算法,满足了系统的实时性要求。
58 | 2011.1~至今:视线辅助操控系统 | 总装备部重点项目
59项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步
60瞄准的效果。
61项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。
62 | 2010.9~2011.6:车牌识别系统 | 大学生创新项目
63项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。
64项目职责:采用MFC实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。
65实习经历
66 | 中科院自动化所(2013年2月—2013年5月)
67实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了90%左
68右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注
69并保存标注结果。
70 | 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月)
71实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编
72写了国网技术学院项目各种装置的调试规程。
73社会活动
74 | 入选北京市高中生“翱翔计划”辅导老师,指导两名学员完成创新课题项目。
75 | 担任爱心家园心语室部长,多次组织大型爱心活动。
76 | 智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招
77聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。
78 | 参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大
79型宣传活动。
80自我评价
81在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人
82真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的
83交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思
84维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目,
85具备工程实践经验。
86兴趣爱好:旅游、摄影、跑步、羽毛球等。

【步骤4】从段落中提取简历

【步骤4】是简历解析过程的最后一步,也是简历解析器的核心,它从各个段落中提取简历信息。

特征评分系统

提取引擎的要点是特征评分系统。 每个要提取的简历属性都有一个自定义的特征集,其中每个特征集由一个特征匹配函数和匹配时的特征匹配分数组成(特征匹配分数可以是正数或负数)。 为了计算特定简历属性的文本项目的最终特征得分,它将运行该文本项目的所有特征集并对匹配的特征得分进行求和。 该过程针对该段落内的所有文本项执行,并且具有最高计算特征得分的文本项被识别为提取的简历属性。

作为演示,下表显示了添加的简历 PDF 的个人资料部分中的 3 个简历属性。

Resume AttributeText (Highest Feature Score)Feature Scores of Other Texts
NameCUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。4 CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。 2 策会议(EI),已收录。 2 项目职责:采用MFC实现人机交互界面,图像拼接算法的设计与实现,目标检测与跟踪算法的设计 2 项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究TLD和 2 项目介绍:针对军用共性软件的实时性问题,开展针对GPU平台的并行加速技术研究。 2 项目职责:采用MFC实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。 0 潘 洁 0 个人信息 0 姓 0 名:潘洁 0 性 0 别:女 0 民 0 族:汉族 0 籍 0 贯:河北涿州 0 学 0 历:工学硕士 0 学 0 校:北京理工大学 0 专 0 业: 控制科学与工程 0 教育背景 0 获得学位:工学硕士(免试) 0 硕士论文:《动态场景中运动目标检测与跟踪技术的研究》 0 获得学位:工学学士 0 学士论文:《车牌识别系统设计》 0 科研成果&获奖情况 0 专利:基于多相机旋转扫描的实时全景监控方法和装置。 0 技能素质 0  0  0 计算机: 通过国家计算机等级考试(二级C),熟练应用Office软件。 0  0 行人机交互界面的开发。 0  0 的目标检测与跟踪技术。 0  0  0 专业基础:在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪 0 表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。 0  0 其他技能:熟悉Matlab、VB、Java、VHDL等编程语言,熟悉linux操作系统,熟悉SQL Server、Access 0 等数据库,熟悉boosting、决策树、随机森林、支持向量机、KNN等机器学习算法。项目经历 0  0 兵科集团重点项目 0 项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危 0 险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。 0 与实现。 0  0 总装备部重点项目 0 项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取 0 并融合所得到的特征,进而对目标进行跟踪和识别。 0 Boosting跟踪算法。 0  0 国家自然科学基金 0 项目职责:对hog行人检测算法、STFT算子和SURF算子进行CUDA并行加速研究,并实现了CUDA 0 平台下的目标检测算法,满足了系统的实时性要求。 0  0 总装备部重点项目 0 项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步 0 瞄准的效果。 0 项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。 0  0 大学生创新项目 0 项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。 0 实习经历 0  0 右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注 0 并保存标注结果。 0  0 实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编 0 写了国网技术学院项目各种装置的调试规程。 0 社会活动 0  0 入选北京市高中生“翱翔计划”辅导老师,指导两名学员完成创新课题项目。 0  0 担任爱心家园心语室部长,多次组织大型爱心活动。 0  0 智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招 0 聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。 0  0 参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大 0 型宣传活动。 0 自我评价 0 在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人 0 真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的 0 交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思 0 维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目, 0 具备工程实践经验。 0 兴趣爱好:旅游、摄影、跑步、羽毛球等。 -2 英语水平:CET-6 -2 英语水平:CET-6,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。 -2 OpenCV:熟练掌握采用OpenCV和C/C++对数字图像处理算法进行开发与应用,熟练掌握各种流行 -2 2011.9~2013.12:周视目标监控系统 -2 2011.1~至今:基于分布式传感器特征融合的目标自动识别系统 -2 2012.9~2013.6:军用软件并行技术研究 -2 2011.1~至今:视线辅助操控系统 -2 2010.9~2011.6:车牌识别系统 -4 Tel:18810330361 -4 地址:北京市海淀区中关村南大街5号院 -4 出生年月:1987年6月 -4 毕业时间:2014年3月 -4 2011.09-2014.03:北京理工大学(985)·自动化学院·控制科学与工程 -4 排名:前5% -4 GPA:88/100 -4 主修课程:随机过程理论及应用(93)、智能控制(90)、智能信息处理(93)、模式识 -4 别(93)、线性系统理论(89)、应用数理统计(96),多智能体协同与控制(80),嵌 -4 入式系统与应用(89),自动控制中的线性代数(76)。 -4 2007.09-2011.06:太原理工大学(211)·信息工程学院·自动化 -4 GPA:92/100 -4 主修课程:自动控制理论(97)、过程控制系统(100)、模拟电子技术(97)、数字电 -4 子技术(96)、电力电子技术(99)、嵌入式系统基础(97)、电路理论(97)、模糊控 -4 制系统(95),传感器原理与接口技术(95),现场总线与分布式系统(95)。 -4 中科院自动化所(2013年2月—2013年5月) -4 实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了90%左 -6 论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决 -6 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月) -8 E-mail:panjiehb@126.com -8 排名:1/138 -8 国家级:国家奖学金1次(1/200);国家励志奖学金2次(3/100)。 -8 省级:“山西省优秀毕业生”称号(1/200)。 -8 校级:特等奖学金4次(1/200)、一等奖学金2次(3/100);三好学生(3/100);优秀团员(5/100);“太原理 -8 工大学优秀毕业生”(3/100)。 -8 软件编程:熟练应用C/C++、MFC等编程技术,擅长Win32平台软件开发与应用,熟练应用MFC进
EmailE-mail:panjiehb@126.com4 E-mail:panjiehb@126.com 0 潘 洁 0 Tel:18810330361 0 地址:北京市海淀区中关村南大街5号院 0 个人信息 0 姓 0 名:潘洁 0 性 0 别:女 0 民 0 族:汉族 0 出生年月:1987年6月 0 籍 0 贯:河北涿州 0 学 0 历:工学硕士 0 学 0 校:北京理工大学 0 专 0 业: 控制科学与工程 0 毕业时间:2014年3月 0 教育背景 0 2011.09-2014.03:北京理工大学(985)·自动化学院·控制科学与工程 0 获得学位:工学硕士(免试) 0 排名:前5% 0 硕士论文:《动态场景中运动目标检测与跟踪技术的研究》 0 主修课程:随机过程理论及应用(93)、智能控制(90)、智能信息处理(93)、模式识 0 别(93)、线性系统理论(89)、应用数理统计(96),多智能体协同与控制(80),嵌 0 入式系统与应用(89),自动控制中的线性代数(76)。 0 2007.09-2011.06:太原理工大学(211)·信息工程学院·自动化 0 获得学位:工学学士 0 学士论文:《车牌识别系统设计》 0 主修课程:自动控制理论(97)、过程控制系统(100)、模拟电子技术(97)、数字电 0 子技术(96)、电力电子技术(99)、嵌入式系统基础(97)、电路理论(97)、模糊控 0 制系统(95),传感器原理与接口技术(95),现场总线与分布式系统(95)。 0 科研成果&获奖情况 0 专利:基于多相机旋转扫描的实时全景监控方法和装置。 0 技能素质 0  0  0 计算机: 通过国家计算机等级考试(二级C),熟练应用Office软件。 0  0 行人机交互界面的开发。 0  0 的目标检测与跟踪技术。 0  0  0 专业基础:在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪 0 表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。 0  0 其他技能:熟悉Matlab、VB、Java、VHDL等编程语言,熟悉linux操作系统,熟悉SQL Server、Access 0 等数据库,熟悉boosting、决策树、随机森林、支持向量机、KNN等机器学习算法。项目经历 0  0 兵科集团重点项目 0 项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危 0 险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。 0 与实现。 0  0 总装备部重点项目 0 项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取 0 并融合所得到的特征,进而对目标进行跟踪和识别。 0 Boosting跟踪算法。 0  0 国家自然科学基金 0 项目职责:对hog行人检测算法、STFT算子和SURF算子进行CUDA并行加速研究,并实现了CUDA 0 平台下的目标检测算法,满足了系统的实时性要求。 0  0 总装备部重点项目 0 项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步 0 瞄准的效果。 0 项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。 0  0 大学生创新项目 0 项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。 0 实习经历 0  0 中科院自动化所(2013年2月—2013年5月) 0 实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了90%左 0 右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注 0 并保存标注结果。 0  0 实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编 0 写了国网技术学院项目各种装置的调试规程。 0 社会活动 0  0 入选北京市高中生“翱翔计划”辅导老师,指导两名学员完成创新课题项目。 0  0 担任爱心家园心语室部长,多次组织大型爱心活动。 0  0 智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招 0 聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。 0  0 参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大 0 型宣传活动。 0 自我评价 0 在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人 0 真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的 0 交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思 0 维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目, 0 具备工程实践经验。 0 兴趣爱好:旅游、摄影、跑步、羽毛球等。 -1 英语水平:CET-6 -1 策会议(EI),已收录。 -1 英语水平:CET-6,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。 -1 2011.9~2013.12:周视目标监控系统 -1 项目职责:采用MFC实现人机交互界面,图像拼接算法的设计与实现,目标检测与跟踪算法的设计 -1 2011.1~至今:基于分布式传感器特征融合的目标自动识别系统 -1 项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究TLD和 -1 2012.9~2013.6:军用软件并行技术研究 -1 项目介绍:针对军用共性软件的实时性问题,开展针对GPU平台的并行加速技术研究。 -1 2011.1~至今:视线辅助操控系统 -1 2010.9~2011.6:车牌识别系统 -1 项目职责:采用MFC实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。 -2 CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。 -4 排名:1/138 -4 论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决 -4 国家级:国家奖学金1次(1/200);国家励志奖学金2次(3/100)。 -4 省级:“山西省优秀毕业生”称号(1/200)。 -4 校级:特等奖学金4次(1/200)、一等奖学金2次(3/100);三好学生(3/100);优秀团员(5/100);“太原理 -4 工大学优秀毕业生”(3/100)。 -4 软件编程:熟练应用C/C++、MFC等编程技术,擅长Win32平台软件开发与应用,熟练应用MFC进 -4 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月) -5 OpenCV:熟练掌握采用OpenCV和C/C++对数字图像处理算法进行开发与应用,熟练掌握各种流行 -6 GPA:88/100 -6 GPA:92/100
Phone18810330364 1881033036 0 潘 洁 0 地址:北京市海淀区中关村南大街5号院 0 个人信息 0 姓 0 名:潘洁 0 性 0 别:女 0 民 0 族:汉族 0 出生年月:1987年6月 0 籍 0 贯:河北涿州 0 学 0 历:工学硕士 0 学 0 校:北京理工大学 0 专 0 业: 控制科学与工程 0 毕业时间:2014年3月 0 教育背景 0 2011.09-2014.03:北京理工大学(985)·自动化学院·控制科学与工程 0 获得学位:工学硕士(免试) 0 排名:前5% 0 硕士论文:《动态场景中运动目标检测与跟踪技术的研究》 0 主修课程:随机过程理论及应用(93)、智能控制(90)、智能信息处理(93)、模式识 0 别(93)、线性系统理论(89)、应用数理统计(96),多智能体协同与控制(80),嵌 0 入式系统与应用(89),自动控制中的线性代数(76)。 0 2007.09-2011.06:太原理工大学(211)·信息工程学院·自动化 0 获得学位:工学学士 0 排名:1/138 0 学士论文:《车牌识别系统设计》 0 主修课程:自动控制理论(97)、过程控制系统(100)、模拟电子技术(97)、数字电 0 子技术(96)、电力电子技术(99)、嵌入式系统基础(97)、电路理论(97)、模糊控 0 制系统(95),传感器原理与接口技术(95),现场总线与分布式系统(95)。 0 科研成果&获奖情况 0 专利:基于多相机旋转扫描的实时全景监控方法和装置。 0 国家级:国家奖学金1次(1/200);国家励志奖学金2次(3/100)。 0 省级:“山西省优秀毕业生”称号(1/200)。 0 校级:特等奖学金4次(1/200)、一等奖学金2次(3/100);三好学生(3/100);优秀团员(5/100);“太原理 0 工大学优秀毕业生”(3/100)。 0 技能素质 0  0  0  0 行人机交互界面的开发。 0  0 的目标检测与跟踪技术。 0  0  0 专业基础:在模拟电路、数字电路、单片机、嵌入式系统设计、过程控制、电机拖动、自动化仪器仪 0 表方面具有一定的专业基础,掌握经典控制理论、现代控制理论和模糊控制算法。 0  0  0 2011.9~2013.12:周视目标监控系统 0 兵科集团重点项目 0 项目介绍:该监控系统可以提供全景信息,进行周遭环境的监视,并且能够自动检测、识别、跟踪危 0 险目标。其主要功能包括全景图像融合、目标检测、目标跟踪、人机交互等。 0 与实现。 0  0 2011.1~至今:基于分布式传感器特征融合的目标自动识别系统 0 总装备部重点项目 0 项目介绍:该系统能够实时有效的处理海量传感器的信息,对目标的多种传感器信息进行处理,提取 0 并融合所得到的特征,进而对目标进行跟踪和识别。 0  0 2012.9~2013.6:军用软件并行技术研究 0 国家自然科学基金 0 平台下的目标检测算法,满足了系统的实时性要求。 0  0 2011.1~至今:视线辅助操控系统 0 总装备部重点项目 0 项目介绍:自动识别头盔瞄准动作,调节控制车载武器的瞄准姿态,达到人的瞄准姿态控制武器同步 0 瞄准的效果。 0 项目负责:负责完成基于双目视觉的头部追踪,通过姿态解算获取头盔相对初始位置的姿态信息。 0  0 2010.9~2011.6:车牌识别系统 0 大学生创新项目 0 项目介绍:该系统能够对复杂环境中的车辆牌照进行精确定位并识别车牌号,鉴别车主身份。 0 实习经历 0  0 中科院自动化所(2013年2月—2013年5月) 0 实习期间,参与智能监控项目的开发工作。主要负责图像分类相关算法的实现与调试,达到了90%左 0 右的精确度。同时,设计开发一款图像标注软件,它能实现对视频、图像中的任意多个目标进行标注 0 并保存标注结果。 0  0 国家电网 • 智研院 • 中电普瑞科技有限公司(2013年7月—2013年8月) 0 实习期间,完成了离网型波浪能发电系统的建模与仿真,并撰写了详细的说明文档与报告。同时,编 0 写了国网技术学院项目各种装置的调试规程。 0 社会活动 0  0 入选北京市高中生“翱翔计划”辅导老师,指导两名学员完成创新课题项目。 0  0 担任爱心家园心语室部长,多次组织大型爱心活动。 0  0 智联招聘兼职,参与组织京东商城校园之星歌唱比赛、伊利校园行活动等多场大型活动,参与大型招 0 聘会现场支持、笔试支持,并进行人员招聘和广告创意分析。 0  0 参加校勤工助学中心实践部,联系商家企业,给同学提供实习和兼职机会;参与组织商家和企业的大 0 型宣传活动。 0 自我评价 0 在生活中,我坚强独立又不缺乏热情和耐心,时间观念强,吃苦耐劳,做事有计划,为人随和,待人 0 真诚,能够快速接受新事物,融入新环境;在工作中,我具有较好的组织、领导、协调能力,以及良好的 0 交流沟通能力和团队合作精神;具备扎实的专业功底,熟悉控制系统和模式识别等专业领域知识,逻辑思 0 维严谨;有良好的文字、图像编辑能力,能独立完成学术论文和报告的撰写;曾多次参与国防重点项目, 0 具备工程实践经验。 0 兴趣爱好:旅游、摄影、跑步、羽毛球等。 -4 Tel:18810330361 -4 E-mail:panjiehb@126.com -4 英语水平:CET-6 -4 GPA:88/100 -4 GPA:92/100 -4 论文: A new moving objects detection method basedon improved SURF algorithm,第25届中国控制与决 -4 策会议(EI),已收录。 -4 英语水平:CET-6,具有较强的英语读写能力,能够熟练阅读和翻译英文文档。 -4 计算机: 通过国家计算机等级考试(二级C),熟练应用Office软件。 -4 软件编程:熟练应用C/C++、MFC等编程技术,擅长Win32平台软件开发与应用,熟练应用MFC进 -4 OpenCV:熟练掌握采用OpenCV和C/C++对数字图像处理算法进行开发与应用,熟练掌握各种流行 -4 CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。 -4 其他技能:熟悉Matlab、VB、Java、VHDL等编程语言,熟悉linux操作系统,熟悉SQL Server、Access -4 等数据库,熟悉boosting、决策树、随机森林、支持向量机、KNN等机器学习算法。项目经历 -4 项目职责:采用MFC实现人机交互界面,图像拼接算法的设计与实现,目标检测与跟踪算法的设计 -4 项目职责:深入研究各类特征提取算法;提出了基于全局运动补偿的目标检测算法;研究TLD和 -4 Boosting跟踪算法。 -4 项目介绍:针对军用共性软件的实时性问题,开展针对GPU平台的并行加速技术研究。 -4 项目职责:对hog行人检测算法、STFT算子和SURF算子进行CUDA并行加速研究,并实现了CUDA -4 项目职责:采用MFC实现人机交互界面,图像预处理、车牌定位、字符识别等算法的设计与实现。

在添加的简历PDF中,简历属性名称很可能是 “CUDA:深入了解CUDA开发平台和编程模型,掌握CUDA并行编程技术。”

因为它的特征得分为 4,这是配置文件部分中所有文本项中最高的特征得分。 (某些文本项的特征得分可能为负,表明它们不太可能是目标属性)

特征集

解释了特征评分系统后,我们可以更深入地了解如何为简历属性构建特征集。 它遵循 2 个原则:

  1. 简历属性的特征集是相对于同一段落中的所有其他简历属性而设计的。
  2. 简历属性的特征集是根据其特征和每个特征的可能性手工制作的。

下表列出了简历属性名称的一些特征集。 它包含与具有正特征得分的姓名属性相匹配的特征函数,以及仅与具有负特征得分的段落中的其他简历属性相匹配的特征函数。

姓名特征集
特征函数特征匹配分数
只包含字母、空格或句号+3
是否粗体+2
包含所有大写字母+2
包含 @-4 (匹配邮箱)
包含数字-4 (匹配电话)
包含,-4 (匹配地址)
包含 /-4 (匹配URL)

核心功能函数

每个简历属性都有多个特征集。 它们可以在 extract-resume-from-sections 文件夹下的源代码中找到,我们不会在这里全部列出。 每个简历属性通常都有一个核心特征函数可以很好地识别它们,因此我们将在下面列出核心特征函数。

简历属性en简历属性ch核心特色功能正则表达式
Name姓名Contains only letters, spaces or periods/1+$/
Email邮箱Match email format xxx@xxx.xxx xxx can be anything not space/\S+@\S+.\S+/
Phone电话Match phone format (xxx)-xxx-xxxx () and - are optional/(?\d{3})?[\s-]?\d{3}[\s-]?\d{4}/
Location地址Match city and state format City, ST/[A-Z][a-zA-Z\s]+, [A-Z]{2}/
UrlURLMatch url format xxx.xxx/xxx/\S+.[a-z]+/\S+/
School学校Contains a school keyword, e.g. College, University, School
Degree学位登记Contains a degree keyword, e.g. Associate, Bachelor, Master
GPA平均绩点Match GPA format x.xx/[0-4].\d{1,2}/
Date日期Contains date keyword related to year, month, seasons or the word PresentYear: /(?:19|20)\d{2}/
Job Title职称Contains a job title keyword, e.g. Analyst, Engineer, Intern
Company公司Is bolded or doesn’t match job title & date
Project项目Is bolded or doesn’t match date

特殊情况:小段落

最后值得一提的是小段落。 对于个人资料部分,我们可以直接将所有文本项传递给特征评分系统。 但对于其他部分,例如教育和工作经历,我们必须首先将该段落划分为小段落,因为该段落中可能有多个学校或工作经历。 然后,特征评分系统处理每个小段落以检索每个小段落的简历属性并附加结果。

简历解析器应用一些启发式方法来检测小段落。 确定小段落的主要启发式方法是检查 2 行之间的垂直行间距是否大于典型的行间距 * 1.4,因为格式良好的简历通常会在添加下一个小段落之前创建一个新的空换行符。 如果主要启发式不适用于检查文本项是否为粗体,则还有后备启发式。

这就是 OpenResume 解析器算法的全部内容 😃


  1. a-zA-Z\s. ↩︎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

切糕师学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值