面试
文章平均质量分 54
忍哥
这个作者很懒,什么都没留下…
展开
-
关于简单介绍Mapreduce,Hbase,Kafka,Zookeeper
1.1. zookeeper是干什么的?Zookeeper 是 分布式协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等1.2. zookeeper节点类型Znode有两种类型:短暂(ephemeral)(断开连接自己删除)持久(persistent)(断开连接不删除)Znode有四种形式的目录节点(默认是persistent )PERSISTENTPERSISTENT_SEQU...原创 2018-04-21 21:31:57 · 1025 阅读 · 0 评论 -
面试整理
集群简述 对于企业而言,一般的集群大小规模大概是如下映射关系: 集群大小 小:10~30节点 中:100~300节点 大:1000+节点 对应所需的zookeeper集群规模大概是 小:3台 中:5台 大:7台 有些同学会说,学这玩意啥用啊?我之前集群环境搭的可6了,咔咔咔一顿操作就OK了,老哥,你试想一下,2000台集群节点呢?按照我们之前的配置方式。。。。。。请开始你的表演。...原创 2018-04-15 22:03:06 · 141 阅读 · 0 评论 -
我的面试--spark中如何划分stage
2.spark中如何划分stage窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区。宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区,这是shuffle类操作Stage:一个Job会被拆分为多组Task,每组任务被称为一个Stage就像Map Stage, Reduce Stage。Stag...原创 2018-04-21 21:30:04 · 6857 阅读 · 2 评论 -
大数据面试相关
hadoop的三大组件功能:MapReduce: 对海量数据的处理 分布式 思想 分而治之 大数据集分为小的数据集 每个数据集,尽心逻辑业务处理map 合并统计数据结果reduceHDFS: 存储海量数据 分布式 安全性 副本数据 数据是以bloc...原创 2018-04-21 21:32:14 · 188 阅读 · 0 评论 -
面试相关(g)
Hive增量导入是怎么做的 数据表的创建样例: CREATE TABLE YDDT ( ID string, YDJC_ID string, YDDT_DATA_TYPE string, YDDT_BUSSINESS_NOW bigint, YDDT_USER_NOW bigint, YDDT_COLLECT_TIME string, YDDT_CREATOR原创 2018-04-26 21:47:40 · 255 阅读 · 0 评论 -
面试系列-使用java 重写 hbase api
使用java 重写 hbase api * public class HBaseTest { public static Configuration conf = null; public static Admin admin; public static Connection connection; public static Table table; ...原创 2018-04-26 21:52:27 · 152 阅读 · 0 评论 -
Hive数据倾斜解决方案
数据倾斜的解决方案 2.1参数调节: hive.map.aggr=true Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 ...原创 2018-04-26 21:55:04 · 856 阅读 · 0 评论 -
Hive自己如何确定reduce数和map数
控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); Hive自己如何确定reduce数: reduce个数的...原创 2018-04-26 21:56:25 · 1839 阅读 · 0 评论