大数据面试-20210311

最新推荐文章于 2024-05-14 11:28:19 发布

大数据架构师Pony

最新推荐文章于 2024-05-14 11:28:19 发布

阅读量247

点赞数

分类专栏：大数据之Hadoop 大数据之面试文章标签： hadoop sqoop

本文链接：https://blog.csdn.net/u011110301/article/details/117707709

版权

大数据之Hadoop 同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

大数据之面试

11 篇文章 1 订阅

订阅专栏

基础题

1、谈谈Hadoop里面的压缩格式以及使用场景

思考题

2、Sqoop在导入数据的时候出现了数据倾斜，你有什么解决方案。另外，使用Sqoop的注意事项，你能列举出来几个？

智力题

3、小鹏汽车充电有两种类型，快充、慢充，有如下数据：

基础题

1、谈谈Hadoop里面的压缩格式以及使用场景

压缩格式比较

各种压缩性能测试

压缩比

压缩时间

可以看出压缩比越高，压缩时间越长，压缩比：Snappy < LZ4 < LZO < GZIP < BZIP2

总结：

经过上面对比，每种压缩都有各自的优势与劣势，我们在选择使用哪种压缩时，需要根据场景来判断，不同的场景选择不同的压缩方式

例如：选择高压缩比，那么对于cpu的性能要求要高，同时压缩、解压时间耗费也多；

选择压缩比低的，对于磁盘io、网络io的时间要多，空间占据要多；

选择对于支持分割的，可以实现并行处理，不支持split的需要空置block的大小如果一个文件太大不支持split只有一个map去处理太耗时。

关于压缩详细文章请参考博客：https://justdodt.github.io/2018/04/15/Hadoop-%E5%8E%8B%E7%BC%A9%E4%BB%8B%E7%BB%8D/

思考题

2、Sqoop在导入数据的时候出现了数据倾斜，你有什么解决方案。另外，使用Sqoop的注意事项，你能列举出来几个？

Sqoop底层运行的是只有Map阶段，没有Reduce阶段的任务

所以抽数的并行化主要涉及到两个参数：

num-mappers：启动N个map来并行导入数据，默认4个；

split-by：按照某一列来切分表的工作单元

sqoop命令中，--split-by id通常配合-m 参数使用。用于指定根据哪个字段进行划分并启动多少个maptask。

注意，当 -m 设置的值大于1时，split-by必须设置字段，且只能是int类型

另外，关于--split-by参数的深入理解大有学问：

1、split-by 根据不同的参数类型有不同的切分方法，如 int 型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。比如 select max(split_by),min(split-by) from 得到的 max(split-by)和min(split-by) 分别为1000和1，而num-mappers（-m）为2的话，则会分成两个区域 (1,500)和(501-1000),同时也会分成2个sql给2个map去进行导入操作，最后每个map各自获取各自SQL中的数据进行导入工作。

2、split-by即便是int型，若不是连续有规律递增的话，各个map分配的数据是不均衡的，可能会有些map很忙，有些map几乎没有数据处理的情况，就容易出现数据倾斜，所以一般split by的值为自增主键id。

使用Sqoop有哪些注意事项（亲自踩坑）

1. 上游数据源数据中含有我们设置的Sqoop行分隔符，导致 1 条数据可能导出到下游就变成了 2 条甚至更多条

解决方案：更改Sqoop以及所有表的行分隔符，或者对含有行分隔符的数据进行特殊处理

2. 上游数据源中存在有 NULL 值数据，经过 Sqoop 接入到下游Hive表中之后，变成了 "null" 或者 "NULL"

解决方案：在Sqoop语句中加入 –null-string '\N' –null-non-string '\N'，需要在表级设置 ' serialization.null.format'参数

Plain Text

alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N');

3.确保导出目录不存在，且拥有对应的写入权限，否则可能会报目录存在异常或权限问题

4.有需要补充的内容欢迎大家私聊群主或者管理，后续更新上

智力题

3、小鹏汽车充电有两种类型，快充、慢充，有如下数据：

车辆 ID 充电时间充电类型

a 20200701 20:00:09 1

a 20200701 21:00:09 0

a 20200702 20:00:09 1

a 20200703 11:00:09 1

a 20200704 12:00:09 1

b 20200706 12:00:09 0

a 20200706 12:00:09 0

其中1为快充，0为慢充，求每辆车最长连续快充次数，以上例子结果为

a 3

b 0

请写出对应的SQL

SELECT t3.vcl_id, nvl(MAX(if(t2.cnt = 1, 0, cnt)), 0) AS max_cnt-- 最大次数，连续1次不称之为连续，记为0
from (select vcl_id from tbl group by vcl_id) t3 -- 车辆维度        
left join ( select vcl_id, tp , rn1 - rn2 as rn_group -- 间距, count(1)  as cnt -- 间距出现的次数    
from (select vcl_id  , tm , tp , row_number() over (partition by vcl_id order by tm asc )   as rn1 , 
row_number() over (partition by vcl_id,tp order by tm asc)    as rn2 
from tbl t  -- 明细事实表   
order by vcl_id, rn1, rn2 ) t1    
group by vcl_id,tp,rn1 - rn2) t2                  
on t3.vcl_id = t2.vcl_id                       
and t2.tp = 1 --- 连续快充
group by t3.vcl_id