计算机毕业设计Hadoop+Spark+Hive招聘可视化招聘数据分析数据仓库招聘推荐系统职位推荐系统就业推荐系统招聘爬虫招聘大数据大数据毕业设计

B站计算机毕业设计1024

于 2024-09-27 16:36:54 发布

阅读量764

点赞数 10

分类专栏：大数据毕业设计文章标签： hadoop 数据仓库大数据机器学习 spark 网络爬虫推荐算法

本文链接：https://blog.csdn.net/spark2022/article/details/142597089

版权

大数据毕业设计专栏收录该内容

533 篇文章 38 订阅

订阅专栏

基于互联网大数据的招聘数据智能分析平台

[摘要] 本文阐述了一款基于大数据计算框架对招聘信息进行智能分析的软件系统，实现了对数据采集、数据处理与分析、数据可视化展示为一体的操作，基本满足各类求职者所提出的求职需求。

本系统主要是由大数据系统以及可视化前端子系统组成。在可视化前端子系统中主要是采用了Springboot框架，mybatis框架，因为其去繁就简的特点，很容易创建一个独立的产品级应用，在可视化阶段采用Echarts来提供可交互的直观数据可视化图表。本系统采用的数据库是MySQL数据库，其目的是用来存储利用爬虫爬取到的大量招聘信息数据集和数据处理之后的分析结果。大数据系统中主要是对招聘信息数据集通过使用Hive进行数据清洗，然后再导入Hadoop HDFS中分布存储。在通过Spark并行计算进行数据抽取，多维分析，查询统计等操作来完成数据分析部分。在前端子系统中的数据明细查询功能中读取到MySQL数据库中的数据分析结果，最后生成Echarts图表展示给用户，为用户对于职业的分析比较大大节省了时间与金钱。

[关键词] 招聘数据智能分析框架大数据 Spark

Recruitment data intelligent analysis platform based on Internet big data

[Abstract] This paper describes a software system for intelligent analysis of recruitment information based on big data computing framework, implementation of data acquisition, data processing and analysis, data visualization display for the integrated operation, basically meet the job requirements of all kinds of job seekers has put forward.

This system is mainly composed of big data system and visual front-end subsystem. In the visualization front-end subsystem, SpringBoot framework and MyBatis framework are mainly adopted. Because of their features of simplicity, it is easy to create an independent product-level application. In the visualization stage, Echarts is used to provide interactive visual data visualization charts. The database used in this system is MYSQL database, which is used to store a large number of recruitment information data sets crawled by crawlers and analysis results after data processing. In the big data system, the data set of recruitment information is mainly cleaned through Hive, and then imported into Hadoop HDFS for distributed storage. Data extraction, multi-dimensional analysis, query statistics and other operations are carried out through Spark parallel computation to complete the data analysis part. The data analysis results of MySQL database are read in the data detail query function of the front-end subsystem, and finally the chart of Echarts is generated and displayed to the user, which greatly saves time and money for the user to analyze and compare the occupation.

[Key words] Recruitment data intelligent analysis ;Framework ;Big data

目录

2.1.2 大数据分析较传统分析的优势 3

2.3.1 利用爬虫Scrapy框架爬取数据 6

2.3.2 利用大数据框架进行数据分析 6

3.2.1 Hadoop对大数据开发的帮助 8

3.2.2 Python对大数据分析的优势 9

3.2.3 MySQL数据库应用于小型项目 10

3.3 相关理论基础 11

3.3.1 scrapy爬虫框架 11

3.3.2 Spark分析引擎介绍 12

3.3.3 针对MySQL数据库的详细总结 14

5.2.1 Spark框架进行数据分析 30

5.2.2 spark分析工作经验与薪水的关系 31

5.2.3 spark分析工资最高的10座城市 32

5.2.4 spark分析学历与薪水的关系 33

5.2.5 spark分析各城市公司发布职位规模占比 34

5.3 可视化前端子系统的实现 35

5.3.1 前端界面调用分析结果的实现 35

5.3.2 前端界面显示分析结果的实现 36

1 引言

近些年来,基于互联网大数据的应用已经涉及各行各业,网上商城、政府办公、大数据智能分析等服务内容层出不穷。那么基于互联网大数据的招聘数据智能分析平台会对现存的海量招聘职位信息数据进行数据采集，数据统计与分析，最终以可视化图表的形式展示给广大用户，解决了以往费时费力的人工收集与分析工作。我们这一款招聘数据智能分析平台是依赖以大数据为背景开发出的项目，那么就要先了解什么是大数据。

什么是大数据呢?网络权威知识将大数据认定为在可操作的时间跨度内没有办法使用普通传统软件来捕捉、收集和对其操作的数据集。大数据技术的独到之处不在于拥有巨大的数据信息，而是针对对这些数据进行有可见效果的特殊加工。换一方面来讲，如果将大数据与一个现有的行业进行对比，那么这个行业赚钱的重中之重在于通过“操作”提升数据的“执行效果”和数据的“额外价值”。

在这个大数据火爆的年代，利用其可以处理更多的数据，有时还可以处理和某一个特殊现象有关的一切数据，而不简单地依靠随机采样。与受约束在小数据领域相对比，使用大量的数据为我们带来了更可靠的准确度，也使得我们观察到了一些从未发现的细致之处。总而言之相比于以往的人工招聘数据分析，我们所采用的数据信息会更广阔，计算速度也会更快更加准确，为用户带来更值得信赖的服务体验。第二、就是“大数据就等于风向标”，在之前的统计计算中，因为数据量不是过于庞大，那么精确度就成为了相关领域人员所推崇的目标。当我们拥有大量的招聘数据时，十分精确的准确度不再是我们的主要指标。我们不再需要对一个现象一探究竟，主要知道大致的发展方向就好了。当然，我们也不会彻底放弃正确性，只是不再过度地追求它。第三、不再过度地去找到他们的相关联的地方，而是去寻找他们之间的独有的联系。大数据告诉我们“这个是什么”，而不是“怎么样产生这样的结果"。在大数据时代，我们不需要对底层的事物一探究竟，只需要让数据告诉我们分析得到的结果就好。

我们这一款基于互联网大数据的招聘数据智能分析平台会通过scrapy爬虫来爬取各大招聘网站的招聘数据，然后对我们的招聘信息数据进行规范化，然后对我们爬取到的信息去除污垢，也就是数据清洗。过滤掉没有用的信息数据集，例如过滤掉职位名称为空的记录，再对于不属于“数据集定义”的取值范围内的数据，自动随机填充一个字典值，检查是否有重复数据，如果有再进行删除。然后将清洗过滤好的招聘信息数据集导入到大数据系统中，利用Spark框架进行数据抽取，多维分析等并行计算从而得出决策图表。将分析好的结果传送给MySQL数据库以方便前端可视化系统中数据明细查询模块的读取与调用，最终以Echarts可视化图表的的形式将分析好的招聘数据结果清晰地展示给用户。

2 可行性分析与需求分析

2.1 研究的目的及意义

2.1.1 研究该工程的目的

随着大数据时代的到来，在今天这个高度竞争的经济环境下，之前采用人工进行数据采集，之后进行统一数据分析的工作所带来的效果已经不能满足人们对于职业分析的要求了，现在需要通过一种实时对海量招聘数据进行分析的软件来帮助求职者或相关领域工作人员解决对现有各个行业的疑惑。通过大数据智能分析所取得的成果可以应用与各行各业，社交媒体网站和其他公共服务领域。以一种开放的姿态展现在万千用户面前，这种关于职业招聘数据信息分析之后所取得的理论可以帮用户解决一些切实的问题，例如薪资，公司规模等信息，并且能够切实地帮助用户解决对于求职道路上的一些疑惑。

2.1.2 大数据分析较传统分析的优势

在过去，“智能分析”这一技术被应用于商业智能世界，提供理论方法和高效的解决速度，通过迅速、一致和能够交互地访问各种类型的信息透视图来得到对应的结果。与分析的基本理论十分相似，数据挖掘已经实施于商业，从而对大量的数据进行分析。现在最困难的就是怎么获得躲在大数据底层的知识。分析传统的数据存储与各公司的海量数据,我们会得到相比之前不一样的特殊结果,慢慢的智能分析的道路于传统理论分析道路会相差更大。

传统的分析是对已经存在于很久的数据范围进行分析处理。大多数数据存储空间都有一个极为繁琐的提取、转换和加载过程和数据空间限制，这就是说上传到数据空间的分析结果会更加简易易懂。大数据的最为优秀的长处是，除了可以用之前的操作来捕获数据，它还可以对结构复杂的数据进行处理。这也就是在告诉我们大数据所要分析的数据可以是各种各样的。这也会使这项技术实施起来更有难度，但是同时相比于传统方法我们会见到不一样的效果。

传统的分析会依赖于一个已经产生的数据结构体，在这个结构体中，事物与事物之间的大致关系已经存在，并在原有的关系中进行分析。因此，对于大数据分析，一个已经存在已久的世界里，很难找到事物与事物之间的独特关系，因此，在大数据分析中会考虑到图像、视频、运动生成的信息、射频识别等形式的结构化信息。这会使得大数据分析更有远见。

传统的分析方法是按照一定次序进行的，在获得不可缺少的知识理论前，我们必须每天晚上等待提取、加工和装载以及加工工作的完成。大数据分析任何时间任何地点都可以分析的，只需要使用一些特定工具即可。在传统的分析系统中，实时分析是非常麻烦的，费钱费时间，如大型并行处理系统或对称多处理系统。而大数据则是通过一些大数据分析软件进行数据分析，从而获得对应的理论知识。

2.2 可行性分析

2.2.1 可行性研究与分析

（1）要求：

开发该系统的基本要求与功能是实现对现有的各个行业的招聘数据进行统一地采集，然后将采集到的招聘数据信息按照不同的字段要求进行分类，以方便后续的数据操作。招聘信息数据集由职位ID，职位名称，薪水，学历（初中及以下，高中/中技/中专，大专，本科，硕士，博士，无学历要求），工作经验（1-3年，3-5年，5-10年，10年以上，无需经验），公司规模（少于50人，50-150人，150-500人，500-1000人，1500-5000人，5000-10000人，10000人以上），公司性质（国企，外资，上市公司，合资，民营公司，外企代表处，政府机关，事业单位），城市（34个省会城市）。通过爬虫爬取的方式获取大约34*城市*8个公司性质*600条=16万条招聘数据记录，以CSV的格式保存到Hadoop中HDFS分布存储。通过基于spark框架的大数据系统导入的数据进行数据清洗，然后进行数据处理与分析，然后将得到的结果导入到MySQL数据库中，以方便前端可视化子系统的调用，最后通过前端可视化子系统中数据明细查询功能模块的调用最终将分析的得到的结果展示在Echarts图表中。

（2）目标：

该系统的设计目标必须尽量达到人力的最少利用以及时间的最小花销，最终达到系统开发的成本最小化，在保证系统质量的前提下使人员的利用数最小化，软件编写代码的结构体制，封装性良好，以备后期的维护与更新。

（3）进行可行性研究的方法：

通过知乎与某线上职业招聘公司的相关工作人员进行沟通，了解到进行职业分析的需求，为了制定最佳的可实施性方案，我才用了日常可以使用的Windows界面，具体操作如下：

A.将可行性研究按一定的方法分解成相对简单的工作。

B.将分解后的各项工作，用相匹配的的编程软件去做。

C.尽可能将每一项单独的工作有所关联，方便于最后项目的整合。

（4）评价尺度：

A.每一个模块的功能是否齐全，项目运行稳定。

B.前端界面是否简洁，操作简易

C.整体项目是否具有时效高，效率高的特点。