基于互联网招聘大数据分析系统

一、功能与要求

1、实现功能

    (1)通过对具体的综合场景化实验,使用Hadoop平台相关组件完成数据采集、数据存储、数据预处理、数据分析、数据可视化等大数据分析全流程;

    (2)在Linux系统上安装Hadoop环境(伪分布式或完全分布式);项目使用各组件部署安装正常(flume、hive、sqoop、mysql);

    (3)使用Flume或网络爬虫(WebMagic、Python)等数据采集工具完成待分析数据的采集;

    (4)设计数据清洗、转换、统计功能,并编写MapReduce程序实现数据清洗功能;通过Idea或eclipse创建maven项目,创建MapReduce功能的Java类,输出项目源码和执行结果。

    (5)安装配置Hive数据仓库,连接Hive数据仓库,在Hive中创建ODS层、DW层、ADS层数据表,向数据表中导入数据,并完成多表关联或分组聚合查询,并生成最终的ADS层表;

    (6)在MySQL中创建用于存储Hive分析结果的数据表,使用Sqoop命令将hive分析结果导出到MySQL中;

    (7)过可视化工具(Java Web、Python Web、Nodejs),开发可视化项目,对MySQL数据库中的分析结果进行可视化展示。

2、项目要求

    (1)熟练掌握Hadoop平台的部署、搭建

    (2)熟悉HDFS的操作命令

    (3)熟悉MapReduce数据清洗的一般流程,能开发MapReduce程序

    (4)熟悉Hive的基本语法,通过Hive进行数据分析

    (5)熟悉Sqoop数据传输的基本语法

    (6)熟熟悉常用Linux操作系统命令

    (7)熟悉 Hadoop 操作命令

    (8)熟练通过Flume等不同方法进行数据采集

    (9)熟悉大数据业务处理的全流程

    (10)熟悉数据可视化

3、提交作品

        项目设计报告、项目源程序(项目工程目录及相关资源文件)、项目演示录屏、项目演示ppt。

        其中,项目源程序包含五个目录:数据采集(包括:采集源码或命令、采集的原始数据)、数据清洗(MapReduce maven项目源码)、数据分析(HQL建库、建表、加载数据、查询等命令)、数据导出(sqoop命令)、数据可视化(可视化项目源码)。

二、系统设计

1、系统背景

        借助大数据工具Hadoop以及互联网上的招聘信息作为数据源,设计了一套基于互联网招聘大数据的招聘数据智能分析平台,面向广大的求职者,以及刚毕业的大学生,从而使用户可以实时了解互联网行业最新动态岗位的分布情况,薪资的高低,学历要求,热门岗位,受欢迎的就业地区等信息分析和展示出来,帮助求职者来找到一份适合自己的工作,该项目从数据采集、清洗模块,数据分析模块,数据导出模块,数据可视化模块四个方面来实现平台功能,随着互联网大数据的发展,招聘行业的数据分析任务也亟待大数据技术来实现。但是由于企业岗位繁多,求职者无法正确选择对自身发展最好的职位,企业也无法找到合适的人才,为了解决这些问题才有了这个项目的产生。

2、系统总体设计

3、系统模块设计

        数据采集模块,通过爬虫爬取各大招聘网站的职位信息,或者通过flume将正确的数据上传到hdfs的指定目录上。数据清洗使用MapReduce功能的Java类,编写MapReduce程序实现数据清洗功能,由于数据中有一些我们不需要的数据,属性,以及杂乱的字段,我们使用mapreduce来对于脏数据进行清洗,得到我们想要的数据,这一操作将数据变成了我们想要的数据格式属性,例如热门的职位招聘城市,职位的薪资,学历要求这些属性来进行提取。数据分析的模块我们使用hive来进行数据的分析,hive不适合用于联机(online)事务处理,也不提供实时查询功能,它最适合应用在基于大量不可变数据的批处理作业,通过输入sql 语句对于可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,来了解目前行业的招聘的一个大趋势。使用sqoop 对于数据进行导出,在MySQL中创建用于存储Hive分析结果的数据表,使用Sqoop命令将hive分析结果导出到MySQL中。

        最后就是数据的可视化,通过数据可视化工具(JavaWeb、PythonWeb、Nodejs),开发可视化项目,对MySQL数据库中的分析结果进行可视化展示。输出可视化项目工程。

三、系统实现

1、Hadoop集群安装

2、数据采集

1.完成配置安装flume

2.编写Flume配置文件,启动flume

3.上传数据到本地数据目录download并启动flume

4.hdfs上创建项目数据的目录jobdata来存放在采集的招聘数据,输出Flume

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Hadoop技术的大数据就业岗位数据分析 作者:梁天友 邱敏 来源:《电脑知识与技术》2021年第31期 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第1页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第1页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第2页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第2页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第3页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第3页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第4页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第4页。 摘要:大數据是一门新兴技术,为了进一步了解与之有关的就业岗位情况,通过使用Java程序爬取出真实的大数据就业岗位数据,再结合Hadoop技术进行统计分析,最后使用可视化技术呈现大数据技术岗位不同地区招聘的薪资、数量、职业技能需求等详细信息,为各应聘者做参考和决策分析。 关键词:大数据;岗位招聘;Hadoop;统计分析;可视化 中图分类号:TP391 文献标识码:A 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第5页。 文章编号:1009-3044(2021)31-0047-04 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第5页。 Big Data Employment Data Analysis Based on Hadoop Technology LIANG Tian-you, QIU Min (School of Information Engineering, Nanning University, Nanning 530200,China) Abstract: Big data is a new technology, in order to further understand the related employment situation, through the use of Java program climb out real big jobs data, combining the Hadoop technologies were analyzed, and finally using visualization techniques to present big data technology jobs in different area, the hiring salary, quantity, detailed information, such as professional skill requirements for the candidates for your reference and decision analysis. Key words: Big data; Job recruitment; Hadoop; Statistical analysis; visualization 据IBM统计,全球近90%的数据是在过去2年中生成的,每天都在增加2.5 EB(1 EB=1 024 PB)数据。其中,约有90%的数据是非结构化的。所以这些来自网络和云平台的大数据为价值创造和商业智能提供了新的机会。随着大数据的到来,大数据岗位人才稀缺,治理大数据技术问题成为政府和各公司的问题【1】。政府治理(government governance)主要管理政府大数据和利用政府大数据,收集突发公共安全、突发卫生健康、犯罪、自然灾害、恐怖主义、国防等,并且向社会输送大数据技术人才,根据教育部公布的2017-2020年普通高等学校本科专业备案和审批结果显示,获批新增"数据科学与大数据技术"专业的高校高达616所【2】。公司治理(corporation governance)以信息技术(information technology)治理,即IT治理为主,更新技术处理设备,招纳大数据技术人才。 在如此的大数据技术背景下各公司会把所需人才岗位发布到互联网上,求职者根据自身需求和技能对位各公司的岗位,而使用爬虫和大数据相关技能爬取、统计、分析出来的数据能够帮助求职者起到一个借鉴和决策的作用。 1研究数据及技术方法 本次研究以JavaHadoop技术为基础,"大数据"为关键词,爬取某IT互联网招聘网站各公司的招聘信息到Hadoop分布式文件系统(HDFS)上,爬取信息包括地区、岗位名称、薪资、教育背景、经验要求、公司福利六个字段,对爬取的数据进行处理后存储在Hive数据仓库上,使用M

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值