大数据面试
mischen520
JAVA高级架构师
展开
-
数据倾斜产生的原因以及解决思路
我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:1)key分布不均匀;2)建表时考虑不周我们举一个例子,就说数据默认值的设计吧,假设我们有两张表:user(用户信息表):userid,register_ipip(转载 2021-09-11 08:16:23 · 3340 阅读 · 0 评论 -
大数据中的数据倾斜表现
1)hadoop中的数据倾斜表现:有一个或几个Reduce卡住,卡在99.99%,一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer伴随着数据倾斜,会出现任务被kill等各种诡异的表现。2)hive中数据倾斜一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。3)Spark中的数据倾斜Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:原创 2021-09-11 08:00:52 · 259 阅读 · 0 评论 -
介绍一下Flink的CEP机制
CEP全称为Complex Event Processing,复杂事件处理Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据 —— 满足规则的复杂事件...原创 2021-07-08 23:04:45 · 356 阅读 · 0 评论 -
什么是数据湖?
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。 数据仓库 数据湖 主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。 能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的.原创 2021-07-08 20:35:59 · 548 阅读 · 0 评论 -
java可视化报表工具有哪些?
Echarts(百度开源)、kibana(开源)、Tableau(功能强大的收费软件)、Superset(功能一般免费)、QuickBI(阿里云收费的离线)、DataV(阿里云收费的实时)原创 2021-07-08 20:32:25 · 305 阅读 · 0 评论 -
Spark提交作业参数以及注意事项(高频面试题)
1)在提交任务时的几个重要参数executor-cores —— 每个executor使用的内核数,默认为1,官方建议2-5个num-executors —— 启动executors的数量,默认为2executor-memory —— executor内存大小,默认1Gdriver-cores —— driver使用内核数,默认为1driver-memory —— driver内存大小,默认512M2)边给一个提交任务的样式spark-submit \--master l..原创 2021-07-07 07:59:34 · 1618 阅读 · 0 评论 -
Hadoop解决数据倾斜的方法
1)提前在map进行combine,减少传输的数据量在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候,这种方法就不是很有效了。2)导致数据倾斜的key 大量分布在不同的mapper(1)局部聚合加全局聚合。第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀,这样本来相同的key 也会被分原创 2021-07-07 07:36:13 · 575 阅读 · 0 评论 -
Flink是怎样保证Exactly-Once
下级存储支持事务:Flink可以通过实现两阶段提交和状态保存来实现端到端的一致性语义。 分为以下几个步骤:1)开始事务(beginTransaction)创建一个临时文件夹,来写把数据写入到这个文件夹里面2)预提交(preCommit)将内存中缓存的数据写入文件并关闭3)正式提交(commit)将之前写完的临时文件放入目标目录下。这代表着最终的数据会有一些延迟4)丢弃(abort)丢弃临时文件5)若失败发生在预提交成功后,正式提交前。可以根据状态来提交预提交的数据,也可删除预提交的数据。原创 2021-07-05 20:42:31 · 277 阅读 · 0 评论 -
正则匹配身份证号
身份证号(15位、18位数字),最后一位是校验位,可能为数字或字符X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)原创 2021-06-22 08:04:57 · 492 阅读 · 0 评论 -
什么是数据治理?
包括:数据质量管理、元数据管理、权限管理(rangersentry)。数仓CDH cloudmanager-》sentry; HDP ambari=>ranger数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题。数据治理实施要点主要包含数据规划、制定数据标准、整理数据、搭建数据管理工具、构建运维体系及推广贯标六大部分,其中数据规划是纲领、制定数据标准..原创 2021-06-21 20:44:11 · 2603 阅读 · 0 评论