基于文本聚类的招聘信息技能要求提取与量化

一、研究背景与目的

网上对爬取招聘网站并对爬取的数据进行分析的技术博客多如牛毛,但对爬取的数据进行分析仅集中在分析薪资与地域、学历要求、工作年限、行业、公司规模等十分容易量化因素的关系,从职位描述中提取对应聘者的技能要求等少之又少,但技能因素是求职者评估自己是否能胜任一个岗位的重要因素,与其求职的准备、选择息息相关。

本文通过爬取实习僧网站“数据分析”一职的实习信息,对“职位描述”的文本进行预处理、分句,使用文本聚类的方式提取每条实习信息中其中的描述专业技能的句子,并对其描述的专业技能进行量化,从而探究专业技能对薪资的影响。本文所述的方法还可用于提取其他岗位、其他要求等,为大学生提供最直接、最真实的岗位信息,从而使他们对感兴趣的职业有所了解,对他们的学习方向提 供建议,使其和能更明确地为求职作准备。

二、实习招聘信息数据的获取与说明

本文选择实习僧网站中的招聘信息进行数据的抓取。目前国内市场上的招聘平台虽多,垂直于实习领域的却只有“实习僧”一个代表性产品。实习僧网站作为近几年大学生找实习的热门平台,各大公司在上面发布的实习信息更多更全。在本次抓取中,一共抓取了实习僧上所有职位名称包含“数据分析”的实习信息 351条,数据的主体为文本形式的数据。数据抓取的方式为使用python的request 库获取具体实习信息的网页源代码,通过 re 模块使用正则表达式匹配出需要的信息。爬取的数据简介如下表 1 所示:

点击此处下载源码

转载于:https://my.oschina.net/u/4185264/blog/3087827

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值