爬虫应用开发(python课程设计Ⅰ)

本文介绍了基于Scrapy爬虫框架抓取腾讯招聘网站的招聘信息,详细讨论了网络爬虫的原理和类型,以及Scrapy的工作流程。通过建立模型和实现爬虫,成功获取并存储了职位名称、地点、类别等数据。在数据爬取过程中,作者克服了动态加载、数据库兼容性等问题,实现了数据的MySQL存储,并进行了初步的查询分析。
摘要由CSDN通过智能技术生成

目录

一、选题背景

二、爬虫原理

2.1网络爬虫的类型

2.2网络爬虫的使用要求

2.3 Scrapy框架工作流程

三、常用爬虫框架比较

四、数据爬取(腾讯招聘岗位数据)

4.1模型建立

4.2基于Scrapy的腾讯招聘网站爬虫实现

4.3数据查询

4.4遇到的难点

五、总结


一、选题背景

近些年来,随着人类社会的进步,互联网行业快速发展,社会的信息量不断地累计,呈现爆炸式增长,可以说大数据时代已经全面到来。同时,网络招聘作为企业招聘人才的一种重要方式,相对于流程繁琐,耗费大量时间,沟通渠道狭窄的线下招聘,网络招聘成本低,灵活性、针对性强,资源充足,覆盖面较广,通常是当代高校学生在求职时需要密切关注的信息来源。随着网络招聘规模的增长,大量招聘网站出现,而这些网站中包含的招聘信息也为研究者提供了大量的数据。在信息浩如烟海的大数据时代,如何高效获取万维网上所需的信息,是抢占先机的关键。本文基于Scrapy的框架及工作原理展开论述,使用Scrapy定向爬取腾讯招聘网站当中的相关招聘信息数据,对所爬取的招聘信息数据进行处理分析,分析结果可为毕业生就业前招聘信息提供参考。

本文选取了腾讯招聘作为招聘数据采集的网站,总体抓取了不同地区的不同职位的分布情况,不同岗位的职位要求以及岗位招聘的截止日期和申请网址。通过对不同岗位的数据进行分析,可以清晰的了解公司对不同岗位的具体要求,能够为求职者提供一个比较客观的参考标准,可以帮助求职者比较直观的了解当前该公司对人才需求的标准。

二、爬虫原理

  • 1
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值