大数据
文章平均质量分 88
ky75249
这个作者很懒,什么都没留下…
展开
-
大数据得Hive面试题
在项目中是否自定义过UDF、UDTF函数,以及用他们处理了什么问题,及自定义步骤?用UDF函数解析公共字段,用UDTF函数解析事件字段自定义UDF:继承UDF,重写evaluate方法自定义UDTF:继承自GenericUDTF,重写3个方法:initialize(自定义输出的列名和类型),process(将结果返回forward(result)),close为什么要定义UDF、UDTF?因为自定义函数,可以自己埋点Log打印日志,出错或者数据异常,方便调试。原创 2022-12-13 13:16:49 · 273 阅读 · 1 评论 -
大数据得面试题Hadop
通过分区,将不同类型的数据分开处理,之后对不同分区的数据进行排序,如果有Combiner,还要对排序后的数据进行combine。这些返回的 DataNode 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离Client近的排靠前;client 请求3台 DataNode 中的一台A上传数据(本质上是一个 RPC 调用,建立 pipeline),A收到请求会继续调用B,然后B调用C,将整个 pipeline 建立完成,后逐级返回 client;原创 2022-12-13 13:11:10 · 130 阅读 · 0 评论