大数据任务安排第一期

大数据任务安排第一期

1.任务目标

    本期任务需要实现在hadoop平台完成话单数据的入库,并对话单敏感数据加密处理,分发到另外一hadoop集群中,在不同分配资源下分析数据处理效率,数据分发时间等性能指标,以及如何提高性能指标。


2.任务详情

          实现上述任务目标,需要完成以下任务步骤


2.1 搭建hadoop集群

1. 考虑到自身虚拟机器运行效率,建议虚拟机器上搭建1namenode+1datanode的完全分布式集群。

2. 该集群隶属于一个hadoop用户组下,不建议以root用户搭建

3. 该集群namenodedatanode之间实现免密码验证。

4. 同样的集群在另外一台机器上复制一份,已用来实现集群间数据的分发。

5. 搭建过程中,编写搭建文档,记录搭建问题。


考核标准:

熟悉搭建流程,知晓每一步配置信息的作用,检查搭建文档及搭建遇到的问题记录

搭建过程建议1周时间


2.2 创建hive

1. 安装hive环境

2. 一份100G左右的本地话单数据导入到hdfs中,存放于hdfs/ods/yyyymmdd/路径下。

3. 创建hive表,表名cdr_call_d_pt,关联hdfs文件路径,实现数据的查询。

创建过程建议3

2.3 编写、部署hive-udf自定义函数

1.新建java工程,编写hive-udf函数实现数据的加密(MD5,DES

2.Hive环境下部署udf函数

3.实现hive-udf函数查询

编写、部署建议2


2.4 导出hive表数据到hive表和hdfs

1. 新建脱敏hive表,使用hivesql完成hive导出到表的操作

2. 使用hivesql完成hive导出到hdfs的操作

3. 使用hivesql完成字段映射(一对多、多对一)

导出过程建议3

2.5 hdfs文件集群间复制

1. 实现脱敏处理之后的hdfs文件复制到另一台hadoop集群上,完成文件在集群之间的分发。

建议2

 

3.任务考核

3.1搭建hadoop集群

1.编写搭建文档

2.记录搭建问题及解决方案

3.熟悉搭建流程

4.知晓配置信息

 

3.2 创建hive

1.编写安装hive文档

2.记录查询时间

3.如何优化查询效率

3.3 编写、部署hive-udf自定义函数

1.编写部署文档

2.记录查询时

3.如何优化查询效率

 

3.4 导出hive表数据到hive表和hdfs

1.编写文档

2.记录导出时间

3.如何优化导出效率

3.5 hdfs文件集群间复制

1.编写文档

2.记录导出时间

3.如何优化分发效率

 

注意:关于查询/分发效率优化测试场景:

      1.在不同hadoop资源分配下,相同查询/分发方式

      2.相同hadoop资源分配下,不同查询/分发方式

 

 

 

 

 

 

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值