大数据任务安排第一期
1.任务目标
本期任务需要实现在hadoop平台完成话单数据的入库,并对话单敏感数据加密处理,分发到另外一hadoop集群中,在不同分配资源下分析数据处理效率,数据分发时间等性能指标,以及如何提高性能指标。
2.任务详情
实现上述任务目标,需要完成以下任务步骤
2.1 搭建hadoop集群
1. 考虑到自身虚拟机器运行效率,建议虚拟机器上搭建1个namenode+1个datanode的完全分布式集群。
2. 该集群隶属于一个hadoop用户组下,不建议以root用户搭建
3. 该集群namenode与datanode之间实现免密码验证。
4. 同样的集群在另外一台机器上复制一份,已用来实现集群间数据的分发。
5. 搭建过程中,编写搭建文档,记录搭建问题。
考核标准:
熟悉搭建流程,知晓每一步配置信息的作用,检查搭建文档及搭建遇到的问题记录
搭建过程建议1周时间
2.2 创建hive表
1. 安装hive环境
2. 一份100G左右的本地话单数据导入到hdfs中,存放于hdfs中/ods/yyyymmdd/路径下。
3. 创建hive表,表名cdr_call_d_pt,关联hdfs文件路径,实现数据的查询。
创建过程建议3天
2.3 编写、部署hive-udf自定义函数
1.新建java工程,编写hive-udf函数实现数据的加密(MD5,DES)
2.Hive环境下部署udf函数
3.实现hive-udf函数查询
编写、部署建议2天
2.4 导出hive表数据到hive表和hdfs
1. 新建脱敏hive表,使用hivesql完成hive导出到表的操作
2. 使用hivesql完成hive导出到hdfs的操作
3. 使用hivesql完成字段映射(一对多、多对一)
导出过程建议3天
2.5 hdfs文件集群间复制
1. 实现脱敏处理之后的hdfs文件复制到另一台hadoop集群上,完成文件在集群之间的分发。
建议2天
3.任务考核
3.1搭建hadoop集群
1.编写搭建文档
2.记录搭建问题及解决方案
3.熟悉搭建流程
4.知晓配置信息
3.2 创建hive表
1.编写安装hive文档
2.记录查询时间
3.如何优化查询效率
3.3 编写、部署hive-udf自定义函数
1.编写部署文档
2.记录查询时
3.如何优化查询效率
3.4 导出hive表数据到hive表和hdfs
1.编写文档
2.记录导出时间
3.如何优化导出效率
3.5 hdfs文件集群间复制
1.编写文档
2.记录导出时间
3.如何优化分发效率
注意:关于查询/分发效率优化测试场景:
1.在不同hadoop资源分配下,相同查询/分发方式
2.相同hadoop资源分配下,不同查询/分发方式