python数据获取就业方向_基于Python的就业岗位数据获取与预处理

林长谋 黄玮

摘要:互联网数据获取及分析是当前数据科学的一個重要部分。该文针对互联网中就业岗位数据获取与分析的过程基于Python构建了网络爬虫。并在通爬虫获取网络数据的基础上,对所获得的就业岗位数据进行预处理,最终可到供挖掘的数据。

关键词:Python;网络爬虫;数据分析

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2019)12-0006-02

开放科学(资源服务)标识码(OSID):

1 背景

随着信息技术的发展,大数据越来越成为热门的话题[1]。使用大数据技术对就业岗位市场进行数据的分析对于学生职业生涯的规划有较强的现实意义。而就业岗位的相关数据动态连续的创建于不同的人才市场,受数量多、分布广、格式不统一等因素的影响,不易采用人工进行数据的获取。因此也就更不利于相关信息的分析。为解决这一问题,本研究先针对性的进行网络爬虫[2]的设计,再基于分词技术[3]和TD-FID算法进行关键词的提取的统计。

2 网络爬虫的关键技术

爬虫是互联网时代用于获取主题内容的主流工具之一。其可从不同的站点获取预先设置好的主题内容。在本研究中使用Python,并调用BeautifulSoup、Requests等库及数据库技术,进行爬虫的构建。构建爬虫涉及的技术如下:

2.1 HTTP请求与响应与 URL

爬虫的工作原理基于http协议中的请求与响应机制[4]。在浏览器浏览某个网页时,需要使用HTTP协议将URL提交给服务器。服务器收到URL后根据URL中携带的信息处理将对方所请求的资源回传给浏览器端。

爬虫在运行时模拟浏览器与服务器的运行特征,模拟浏览器向服务器发送URL请求,接收对方

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值