大数据项目求助

最近在搞一个大数据项目的比赛
求助学习资料

																比赛内容如下

任务一:平台运维(15分)
当前,平台组已完成了数据分析集群环境的初步部署,集群采用完全分布式部署,包括1台master、2台slave,已完成HDFS、Hive、Yarn、Zookeeper四个基础组件的部署工作,数据分析集群可正常运行,要求你们小组完成数据采集组件Flume的部署及配置,确保安装后的组件能够正常运行。

  1. 在slave1主机安装数据采集组件Flume并启动,通过命令查看进程,确认Flume进程已启动,确定Flume命令是当前系统的合法命令。
  2. 配置Flume Agent,按照以下要求进行参数设置:
    (1)设置Flume监听5555网络端口;
    (2)将从网络端口接收到的数据落地到hdfs以下目录下:
    /raw_data/receive/
    (3)文件名称格式以[YYYYMMDD]_为前缀;
    (4)每接收10M数据落地一个文件,当接收数据不足10M时,每15分钟落地一个文件。
  3. 运行Flume配置验证程序(由竞赛平台提供),生成Flume验证程序执行结果文件。
    注:本部分仅考核参赛选手大数据平台运维能力,为避免赛题错误传递,本部分完成的Flume配置结果不作为后续任务执行基础,不影响后续任务执行,竞赛平台可为未完成配置的参赛队伍提供可正确运行的平台。
    任务二:数据采集与数据预处理(20分)
    使用竞赛平台提供的网络爬虫服务器,编写、配置网络爬虫代码,配置数据采集系统接口,完成从提供的数据源中采集数据,提交到竞赛平台。
    注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行,竞赛平台可为未完成采集的参赛队提供文本数据。
    由参赛选手分析项目需求,充分考虑后续竞赛任务的延续性及可实施性,自行完成数据源选择、数据采集模式设计、工作步骤及流程设计,完成数据采集工作。
    任务三:数据清洗与分析(25分)
    使用Java语言编写MapReduce程序对落地到HDFS的原始数据进行清洗(原始数据中已包含职位描述的分词结果),组装成指定的数据格式后将清洗后的数据加载到Hive数据仓库中,使用HQL语句对数据进行聚类分析。
  4. 编写MapReduce程序,读取并解析落地到HDFS 上/raw/receive目录下的文件数据,清洗职位名称为空、职位描述为空、词列表为空的数据,将清洗后的数据保存在HDFS上/clean/目录下,清洗后的职位数据各字段用|分割。
  5. 从清洗后的文件将清洗后的数据加载到Hive表中。
  6. 运行HQL命令,完成以下数据的分析统计:
    (1)统计各岗位数据总量
    (2)以天为单位统计岗位名称为大数据的数据总量
    (3)统计岗位名称为大数据的关键词的数量
    注:本部分仅考核参赛选手数据清洗及分析能力,为避免赛题错误传递,本部分数据清洗及分析结果不作为后续任务执行基础,不影响后续任务执行,竞赛平台可为未完成数据清洗及分析的参赛队伍提供数据统计结果。
    任务四:数据可视化(20分)
    大数据平台已将统计数据推送到数据可视化系统数据库中,且数据可视化页面HTML、CSS已编写完成,后台处理程序脚手架已搭建完成。要求使用Python语言基于Flask开源框架完成数据可视化后台处理逻辑,完成数据访问及组织,基于Jinja2模板引擎完成前端数据处理,向前端ECharts组件传输数据,最终实现数据可视化。
  7. 基于Flask-SQLAlchemy框架编写数据库映射模型,完成岗位数量统计数据库表结构映射模型、以天为单位的岗位数量统计数据库表结构映射模型、岗位关键词数量统计数据库表结构映射模型。
  8. 编写可视化后台处理程序,按照三个数据统计图表的数据格式进行数据封装,并将封装后的数据传递到Jinja2模板的自定义变量中。
  9. 在前端页面中,使用Jinja2模板引擎获取相关统计图表数据并传递给前端页面中相应的EChart组件。
  10. 运行程序,访问本地可视化网页URL,查看数据可视化Web页面。
    任务五:编制分析报告(15分)
    根据数据可视化显示内容,分别对职位数量统计结果、大数据岗位数量趋势及大数据岗位技术技能关键词进行分析,对大数据行业市场需求进行判断,提出大数据技术与应用专业培养目标建议(包括人才规模建议及技术技能建议)。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值