计算机毕业设计hadoop+spark+hive招聘推荐系统招聘分析可视化大屏职位推荐系统就业推荐系统招聘爬虫招聘大数据大数据毕业设计

B站计算机毕业设计1024

于 2024-08-10 00:14:27 发布

阅读量593

点赞数 11

分类专栏：大数据毕业设计文章标签： hadoop 课程设计数据可视化 python spark hive 推荐算法

本文链接：https://blog.csdn.net/spark2022/article/details/141073260

版权

大数据毕业设计专栏收录该内容

495 篇文章 31 订阅

订阅专栏

毕业设计（论文）

大数据招聘数据分析推荐系统

姓名
学院
专业
班级
指导教师

摘要

本系统阐述了一款基于大数据计算框架对招聘数据进行分析与推荐的软件系统，实现了对数据采集、数据处理与分析、数据可视化展示为一体的操作，基本满足为用户推荐心仪招聘的需求。

本系统主要是由大数据系统、可视化前端系统、web后台管理系统、招聘推荐系统、招聘小程序/APP端组成。大屏统计端使用spark数据推荐+echarts可视化完成，数据采集使用Python离线分析端、网页用户端以及后台管理使用Springboot+mybatis框架开发，在可视化阶段采用Echarts来提供可交互的直观数据可视化图表。本系统采用的数据库是MySQL数据库，其目的是用来存储利用爬虫爬取到的大量招聘信息数据集和数据处理之后的分析结果，在通过Spark并行计算进行数据抽取，多维分析，查询统计等操作来完成数据分析部分。完整基于大数据的招聘数据分析推荐可视化与管理一体的系统开发。

关键词：招聘数据分析、大数据开发、Java开发、Python开发

Abstract

This system describes a software system for analyzing and recommending recruitment data based on big data computing framework, and realizes the operation of data collection, data processing and analysis, and data visualization, basically meeting the needs of recommending desired recruitment for users.

The system is mainly composed of big data system, visual front-end system, Web background management system, recruitment recommendation system, recruitment small program /APP end. Spark data recommendation + Echarts visualization is used for large-screen statistics end, Python offline analysis end, web client end and background management are developed using Springboot+ Mybatis framework, and Echarts is used to provide interactive intuitive data visualization charts in the visualization stage. The database used in this system is MySQL database, which is used to store a large number of recruitment information data sets obtained by crawler and the analysis results after data processing. Data analysis is completed through Spark parallel computing for data extraction, multidimensional analysis, query statistics and other operations. Complete recruitment data analysis and recommendation based on big data visualization and management system development.

Keywords: Recruitment data analysis, big data development, Java development, Python development

目录

2.3.1 利用爬虫Scrapy框架爬取数据

1 引言

近些年来,基于互联网大数据的应用已经涉及各行各业,网上商城、政府办公、大数据智能分析等服务内容层出不穷。那么基于互联网大数据的招聘数据智能分析平台会对现存的海量招聘职位信息数据进行数据采集，数据统计与分析，最终以可视化图表的形式展示给广大用户，解决了以往费时费力的人工收集与分析工作。我们这一款招聘数据智能分析平台是依赖以大数据为背景开发出的项目，那么就要先了解什么是大数据。

在这个大数据火爆的年代，利用其可以处理更多的数据，有时还可以处理和某一个特殊现象有关的一切数据，而不简单地依靠随机采样。与受约束在小数据领域相对比，使用大量的数据为我们带来了更可靠的准确度，也使得我们观察到了一些从未发现的细致之处。总而言之相比于以往的人工招聘数据分析，我们所采用的数据信息会更广阔，计算速度也会更快更加准确，为用户带来更值得信赖的服务体验。第二、就是“大数据就等于风向标”，在之前的统计计算中，因为数据量不是过于庞大，那么精确度就成为了相关领域人员所推崇的目标。当我们拥有大量的招聘数据时，十分精确的准确度不再是我们的主要指标。我们不再需要对一个现象一探究竟，主要知道大致的发展方向就好了。当然，我们也不会彻底放弃正确性，只是不再过度地追求它。第三、不再过度地去找到他们的相关联的地方，而是去寻找他们之间的独有的联系。大数据告诉我们“这个是什么”，而不是“怎么样产生这样的结果"。在大数据时代，我们不需要对底层的事物一探究竟，只需要让数据告诉我们分析得到的结果就好。

我们这一款基于互联网大数据的招聘数据智能分析平台会通过scrapy爬虫来爬取各大招聘网站的招聘数据，然后对我们的招聘信息数据进行规范化，然后对我们爬取到的信息去除污垢，也就是数据清洗。过滤掉没有用的信息数据集，例如过滤掉职位名称为空的记录，再对于不属于“数据集定义”的取值范围内的数据，自动随机填充一个字典值，检查是否有重复数据，如果有再进行删除。然后将清洗过滤好的招聘信息数据集导入到大数据系统中，利用Spark框架进行数据抽取，多维分析等并行计算从而得出决策图表。将分析好的结果传送给MySQL数据库以方便前端可视化系统中数据明细查询模块的读取与调用，最终以Echarts可视化图表的的形式将分析好的招聘数据结果清晰地展示给用户。

2 可行性分析与需求分析

2.1 研究的目的及意义

2.1.1 系统研究目的

随着大数据时代的到来，在今天这个高度竞争的经济环境下，之前采用人工进行数据采集，之后进行统一数据分析的工作所带来的效果已经不能满足人们对于职业分析的要求了，现在需要通过一种实时对海量招聘数据进行分析的软件来帮助求职者或相关领域工作人员解决对现有各个行业的疑惑。通过大数据智能分析所取得的成果可以应用与各行各业，社交媒体网站和其他公共服务领域。以一种开放的姿态展现在万千用户面前，这种关于职业招聘数据信息分析之后所取得的理论可以帮用户解决一些切实的问题，例如薪资，公司规模等信息，并且能够切实地帮助用户解决对于求职道路上的一些疑惑。

2.1.2 大数据分析

在过去，“智能分析”这一技术被应用于商业智能世界，提供理论方法和高效的解决速度，通过迅速、一致和能够交互地访问各种类型的信息透视图来得到对应的结果。与分析的基本理论十分相似，数据挖掘已经实施于商业，从而对大量的数据进行分析。现在最困难的就是怎么获得躲在大数据底层的知识。分析传统的数据存储与各公司的海量数据,我们会得到相比之前不一样的特殊结果,慢慢的智能分析的道路于传统理论分析道路会相差更大。

传统的分析是对已经存在于很久的数据范围进行分析处理。大多数数据存储空间都有一个极为繁琐的提取、转换和加载过程和数据空间限制，这就是说上传到数据空间的分析结果会更加简易易懂。大数据的最为优秀的长处是，除了可以用之前的操作来捕获数据，它还可以对结构复杂的数据进行处理。这也就是在告诉我们大数据所要分析的数据可以是各种各样的。这也会使这项技术实施起来更有难度，但是同时相比于传统方法我们会见到不一样的效果。

传统的分析会依赖于一个已经产生的数据结构体，在这个结构体中，事物与事物之间的大致关系已经存在，并在原有的关系中进行分析。因此，对于大数据分析，一个已经存在已久的世界里，很难找到事物与事物之间的独特关系，因此，在大数据分析中会考虑到图像、视频、运动生成的信息、射频识别等形式的结构化信息。这会使得大数据分析更有远见。

传统的分析方法是按照一定次序进行的，在获得不可缺少的知识理论前，我们必须每天晚上等待提取、加工和装载以及加工工作的完成。大数据分析任何时间任何地点都可以分析的，只需要使用一些特定工具即可。在传统的分析系统中，实时分析是非常麻烦的，费钱费时间，如大型并行处理系统或对称多处理系统。而大数据则是通过一些大数据分析软件进行数据分析，从而获得对应的理论知识。